マルチモーダルAI
まるちもーだるえーあい
意味
マルチモーダルAI(Multimodal AI)とは、テキスト(言葉)だけでなく、画像、音声、動画、数値データなど、種類の異なる複数の情報(モダリティ)を組み合わせて処理・理解できるAIのことである。 人間が「目で見て、耳で聞いて」世界を理解するように、AIも「写真を見ながら質問に答える」「グラフ...
概要
テキスト(文章)、画像、音声、動画など、異なる種類(モード/モダリティ)のデータを同時に処理・理解できるAIのこと。
従来との違い
これまでのAIは「シングルモーダル」だった。
- 画像認識AIは、画像しか見れない。
- 自然言語処理AIは、テキストしか読めない。
具体例:GPT-4Vなど
マルチモーダルAIは、人間のように「写真を見て、その状況を言葉で説明する」ことができる。 例えば、「冷蔵庫の中身の写真」を見せると、AIが画像認識で食材を特定し、さらに言語能力で「今夜の献立のレシピ」を提案してくれる。
応用
- 自動運転: カメラの映像(視覚)と、マイクの音(聴覚)、センサーの情報などを組み合わせて判断する。
- ロボット: 「その赤い本を取って」と言われたら、言葉を理解し、カメラで赤い本を探して掴む。