教師ありファインチューニング
教師ありファインチューニング(SFT)は、事前学習された大規模モデルを、特定のターゲットタスクに特化した、より小規模で高品質なラベル付きデータセットでさらに訓練する、応用機械学習における重要なプロセスです。その目標は、ベースモデルに埋め込まれた一般的な知識を、ニッチでドメイン固有の要件で卓越するように適応させることです。
汎用モデルは強力ですが、専門的なエンタープライズアプリケーションに必要なニュアンスを欠いていることがよくあります。SFTは、ドメインの専門知識をモデルの重みに直接注入することで、このギャップを埋めます。これにより、出力は文法的に正しいだけでなく、文脈的にも正確で、特定のビジネスプロトコルや業界用語に準拠したものになります。
このプロセスは、すでに大規模で多様なデータセットで訓練された基盤モデル(例:大規模なトランスフォーマーモデル)から始まります。SFTでは、このモデルに、入力プロンプトと、専門家によって提供された望ましい出力のペアが提示されます。モデルは、予測とファインチューニングデータセットで提供された正解ラベルとの差を最小限に抑えるために、内部パラメータを反復的に調整します。
SFTは、さまざまなビジネス機能で広く使用されています:
SFTの主な利点には、ターゲットタスクにおける大幅なパフォーマンス向上、複雑な指示で大規模モデルにプロンプトを与える場合と比較した推論レイテンシの削減、およびブランドボイスや規制上の制約への準拠性の向上が含まれます。
主な課題は、ラベル付きデータの質と量に関わります。不適切にキュレーションされた、または偏りのあるトレーニングデータは、ファインチューニングされたモデルの質の低下につながります。さらに、ファインチューニングプロセス自体に必要な計算リソースはかなりのものになる可能性があります。
このプロセスは、人間のフィードバックからの強化学習(RLHF)と密接に関連しており、RLHFは初期のタスク固有のチューニングの後に、モデルの動作をさらに調整することがよくあります。