アテンション機構
アテンション機構は、人工ニューラルネットワークが出力を生成する際に、入力データの異なる部分の重要度を動的に重み付けできるようにする技術です。すべての入力要素を平等に扱うのではなく、アテンションにより、処理の各ステップで入力シーケンスから最も関連性の高い情報に選択的に焦点を当てることが可能になります。
従来のリカレントニューラルネットワーク(RNN)は、長期的な依存関係を扱う際にしばしば苦労し、シーケンスが長くなるにつれて情報ボトルネックに悩まされてきました。アテンション機構は、この制限に直接対処します。重み付けされた焦点を提供することにより、モデルは膨大なデータにわたってコンテキストを維持することができ、翻訳やテキスト要約などの複雑なタスクで性能が大幅に向上します。
その核心において、アテンションは一連の重みを計算します。与えられた出力要素に対して、この機構は各入力要素がどれだけ関連しているかを示すスコアを計算します。これらのスコアは正規化され(通常はソフトマックス関数を使用)、アテンションの重みを作成します。これらの重みは、入力値の加重和を計算するために使用され、現在のタスクに非常に関連性の高いコンテキストベクトルが生成されます。
この機構は、最新のAIアーキテクチャの基礎となっています。
アテンションを実装する主な利点は以下の通りです。
その強力さにもかかわらず、アテンション機構には課題があります。
アテンションに密接に関連する主要な概念には、Transformer(アテンションのみに基づいて構築されたアーキテクチャ)、自己アテンション(入力が自身に注意を払う場合)、およびエンコーダ・デコーダ構造があります。