マルチモーダルワークフロー
マルチモーダルワークフローとは、複数のデータタイプからの情報を同時に統合および処理する構造化されたプロセスです。これらのワークフローは、テキスト、画像、音声などを孤立して処理するのではなく、自然言語、視覚データ、サウンドなどの異なるモダリティが相互作用し、単一の成果または決定に情報を提供できるように設計されています。
今日のデータが豊富な環境では、現実世界の問題は単一のデータ形式に限定されることはめったにありません。顧客とのやり取りは、音声クエリ(音声)、エラーのスクリーンショット(画像)、チャットのトランスクリプト(テキスト)を含む場合があります。マルチモーダルワークフローにより、システムは完全なコンテキストを理解できるようになり、大幅により正確で、ニュアンスがあり、人間らしい自動化が可能になります。
マルチモーダルワークフローの核となるのは、各データタイプに対応する専門のエンコーダーです。例えば、ビジョンエンコーダーは画像を数値ベクトルに処理し、言語モデルはテキストをベクトルに処理します。これらのベクトルは、共有された高次元の埋め込み空間にマッピングされます。この共有空間により、システムはモダリティを横断して推論できるようになります。例えば、「画面が壊れている」というテキストが、ひびの入ったディスプレイの画像と意味的に対応していることを理解できます。