人間からのフィードバックによる強化学習
人間からのフィードバックによる強化学習(RLHF)は、大規模言語モデル(LLM)やその他のAIエージェントをファインチューニングするために使用される技術です。これは、人間の評価者からの明示的なフィードバックをトレーニングループに組み込むことにより、生のモデル予測と望ましい人間の選好との間のギャップを埋めます。
従来の機械学習は、数学的な目的関数を最適化します。しかし、有用性、無害性、複雑な指示への準拠といった人間の目標は、主観的であり、直接定量化することが困難な場合が多いです。RLHFにより、開発者はAIの動作を微妙な人間の価値観に合わせることができ、結果として得られるモデルを現実世界のアプリケーションでより安全で有用なものにします。
RLHFは通常、3つのステップからなるプロセスを含みます。
RLHF は、高度な生成AIを展開するために極めて重要です。一般的なアプリケーションには以下が含まれます。
RLHF の主な利点は、アライメント(整合性)の向上です。これは、モデルを単なる統計的精度から機能的な有用性へと移行させます。これにより、ユーザー満足度の向上、有害コンテンツ生成の削減、および多様なプロンプトにわたるより予測可能なモデル動作がもたらされます。
RLHF の実装は計算集約的で複雑です。主な課題には以下が含まれます。
RLHF は、選好学習、憲法AI(純粋な人間による比較の代わりに明示的なルールセットを使用)、およびポリシー勾配法などの標準的な強化学習技術と密接に関連しています。