ビジョン言語モデル
ビジョン言語モデル(VLM)は、視覚的入力(画像や動画)とテキスト入力(言語)の両方からの情報をシームレスに処理し理解するように設計された人工知能モデルの一種です。視覚または言語のいずれかに特化している従来のモデルとは異なり、VLMはこのギャップを埋め、画像が示すものとそれを説明する言葉との関係を解釈できるようにします。
VLMは、マルチモーダルAI能力における大きな飛躍を意味します。これらは、機械が人間の知覚を模倣する方法で世界を「見て」「理解する」ことを可能にします。企業にとって、これは単なる画像認識を超えて、複雑な文脈的理解へと移行し、視覚メディアからの新しいレベルの自動化とデータ抽出を可能にすることを意味します。
VLMの核となる機能は、視覚と言語という2つの異なるモダリティを単一の表現空間に融合させることです。これは通常、特殊なエンコーダを使用することによって達成されます。ビジョンエンコーダ(CNNやVision Transformerなど)が画像を数値埋め込みに処理し、言語エンコーダ(Transformerなど)がテキストを別の埋め込みに処理します。これらの埋め込みはその後アライメントされ、結合され、モデルが両方のドメインにわたる推論を必要とするタスクを実行できるようになります。
関連する概念には、マルチモーダル学習、大規模言語モデル(LLM)、コンピュータビジョンシステムが含まれます。VLMは、LLMと強力な視覚認識モジュールとの高度な統合と見なすことができます。