1.算法仿真效果 matlab2022a仿真结果如下(完整代码运行后无水印): 3.jpeg2.jpeg1.jpeg

2.算法涉及理论知识概要 强化学习(Reinforcement Learning, RL)是一种机器学习方法,它使代理(agent)通过与环境互动,学习采取何种行动以最大化累积奖励。在路径规划问题中,强化学习被用于自动探索环境,找到从起点到终点的最佳路径。其中,QLearning和SARSA是两种经典的价值迭代方法。

2.1 QLearning QLearning是一种off-policy学习方法,意味着它学习的是一个最优策略,而不是仅仅基于所执行的策略。它通过更新动作价值函数Q(s,a)来实现这一点,公式如下:

4.png

   QLearning的特点在于其更新规则不依赖于当前策略,而是基于最佳动作进行更新,这使得它能够直接学习最优策略,即使执行的策略与学习策略不同。

2.2 SARSA 相比之下,SARSA(State-Action-Reward-State-Action)是一种on-policy学习方法,它根据当前策略来选择下一个动作,并据此更新动作价值函数。SARSA的更新公式如下:

5.png

2.3 对比分析 策略差异:QLearning是off-policy,它学习的是最优策略,而实际执行的动作可以来自任意策略,这使得它更灵活,能够探索更广阔的行为空间;SARSA则是on-policy,更新规则依赖于执行的策略,学习与行为策略一致,这要求算法必须按照正在学习的策略来行动,有时限制了探索范围。

更新规则:QLearning在更新时考虑的是下一个状态st+1​下所有动作的最大期望回报,这使得它在探索未知环境时更加积极,但也可能导致过估计;SARSA则只考虑下一个状态下按当前策略选择的动作的回报,这使得它更保守,倾向于评估当前策略下的性能。

收敛性:理论上,QLearning在无限探索且无偏的情况下可以保证收敛到最优策略,但实践中容易过估计,尤其是在状态空间较大时;SARSA由于其保守性,通常收敛性更稳定,但可能不会直接找到最优解。

适用场景:QLearning更适合于探索性要求较高、需要寻找全局最优策略的任务;而SARSA则适用于策略更新需要与执行策略一致,或对稳定性要求较高的场景。

3.MATLAB核心程序

    step_save(iters) = step;
    Rwd1(iters) = Rwd3;
    Rwd2(iters) = Rwd3/step;
    Rwd3 = 0; % 重置累积奖励
    
    
    % 在到达目标后的额外步骤处理
    [next, temp] = func_next(current, action, Maps,temp, Rm, Cm);
    rewardNew = Rwd_stop;
    if func_Overlap(next,xy1) ~= 0
        if next.row == Rm && next.col >= 2 && next.col < Cm % 悬崖情况
            rewardNew = Rwd_n;
            next = xy0; % 回到起点
        end
    else
        rewardNew = Rwd_p;
    end
    
    
 
    % 再次应用Epsilon-greedy策略
    randN = 0 + (rand(1) * 1);
    if(randN > Lsearch)
        [~,nextAction] = max(Qtable0(next.row,next.col,:));
    else
        nextAction = round(1 + (rand(1) * 3));
    end
    
    nextQ    = Qtable0(next.row,next.col,nextAction);
    Qcur     = Qtable0(current.row, current.col, action);
    Qtable0(current.row, current.col, action) = Qcur + Lr * (rewardNew + Gma*nextQ - Qcur);
    
 
    if  iters == Miter
        temp2 = func_Episode(Qtable0,Rm,Cm,xy0,xy1,Maps,Nact);
      
 
        figure(2);
        subplot(311); 
        plot(1:iters, Rwd1, 'b');
        ylabel('每轮奖励之和')
        axis([0 iters min(Rwd1)-10 max(Rwd1+10)])
 
        subplot(312); 
        plot(1:iters, step_save, 'b');
        ylabel('步数');
        axis([0 iters 0 max(step_save+10)])
        xlabel('试验次数')
 
 
        subplot(313); 
        plot(1:iters, Rwd2, 'b');
        ylabel('每轮奖励平均值')
        axis([0 iters min(Rwd2)-10 max(Rwd2+10)])
        drawnow
    else
        Qtable1=Qtable0;
 
    end
    
    iters = iters + 1; % 迭代计数器增加
end
 
 
save R2.mat
0Z_007m