ニューラルポリシー
ニューラルポリシーとは、通常ニューラルネットワークを使用して実装される関数であり、環境で観測された状態を可能なアクションの確率分布にマッピングするものです。強化学習(RL)の文脈では、このネットワーク自体がポリシー($\pi$)となります。ルックアップテーブルを使用する代わりに、ポリシーは生の感覚入力から複雑で連続的、または高次元のマッピングを直接学習します。
従来の制御システムは、事前にプログラムされたルールや単純な状態-アクションマッピングに依存することがよくあります。ニューラルポリシーは、手動でのルール作成が不可能または計算上非現実的な、膨大で連続的、あるいは部分的に観測可能な状態空間を持つ環境をAIエージェントが処理できるようにします。これにより、エージェントは、未見のシナリオにうまく一般化する洗練された適応的動作を学習できるようになります。
このプロセスには、ポリシー勾配(Policy Gradients、例:REINFORCE、A2C)やActor-Critic法などのRLアルゴリズムを使用してニューラルネットワークを訓練することが含まれます。エージェントは環境と相互作用し、報酬またはペナルティを受け取り、これらのシグナルを使用してニューラルネットワークの重みを調整します。ネットワークの出力は、特定の状態で各アクションをとる確率を決定し、実質的にエージェントの行動戦略を定義します。
ニューラルポリシーは、いくつかの高度なアプリケーションにおいて基礎的です。
この概念は、価値関数(Value Functions、期待される将来の報酬を推定するもの)、Q学習(Q-Learning、最適なアクション値を学習するもの)、およびActor-Criticアーキテクチャ(Actor-Critic architectures、ポリシー学習と価値推定を組み合わせるもの)と密接に関連しています。