神经策略
神经策略(Neural Policy)指的是一个函数,通常使用神经网络实现,它将环境观察到的状态映射到可能动作的概率分布。在强化学习(RL)的背景下,这个网络就是策略($\pi$)。它不是使用查找表,而是直接从原始感官输入中学习复杂的、连续的或高维的映射。
传统的控制系统通常依赖于预先编程的规则或简单的状态-动作映射。神经策略使人工智能代理能够处理具有庞大、连续或部分可观测状态空间的复杂环境——在这些情况下,手动创建规则是不可能或计算上不可行的。它们使代理能够学习复杂的、自适应的行为,这些行为能很好地泛化到未见过的场景。
该过程涉及使用强化学习算法(如策略梯度(Policy Gradients,例如 REINFORCE、A2C)或 Actor-Critic 方法)来训练神经网络。代理与环境交互,接收奖励或惩罚,并利用这些信号来调整神经网络的权重。网络的输出决定了在给定状态下采取每个动作的概率,从而有效地定义了代理的行为策略。
神经策略在几个高级应用中是基础性的:
这个概念与价值函数(Value Functions,用于估计预期未来奖励)、Q学习(Q-Learning,用于学习最优动作值)以及 Actor-Critic 架构(Actor-Critic architectures,将策略学习与价值估计相结合)密切相关。