マルチモーダルAI

まるちもーだるえーあい

意味

マルチモーダルAI（Multimodal AI）とは、テキスト（言葉）だけでなく、画像、音声、動画、数値データなど、種類の異なる複数の情報（モダリティ）を組み合わせて処理・理解できるAIのことである。人間が「目で見て、耳で聞いて」世界を理解するように、AIも「写真を見ながら質問に答える」「グラフ...

概要

テキスト（文章）、画像、音声、動画など、異なる種類（モード/モダリティ）のデータを同時に処理・理解できるAIのこと。

従来との違い

これまでのAIは「シングルモーダル」だった。

画像認識AIは、画像しか見れない。
自然言語処理AIは、テキストしか読めない。

具体例：GPT-4Vなど

マルチモーダルAIは、人間のように「写真を見て、その状況を言葉で説明する」ことができる。例えば、「冷蔵庫の中身の写真」を見せると、AIが画像認識で食材を特定し、さらに言語能力で「今夜の献立のレシピ」を提案してくれる。

応用

自動運転: カメラの映像（視覚）と、マイクの音（聴覚）、センサーの情報などを組み合わせて判断する。
ロボット: 「その赤い本を取って」と言われたら、言葉を理解し、カメラで赤い本を探して掴む。

タグ

Amazonで「マルチモーダルAI」の関連書籍を探す

学習を深めるための一冊が見つかるかもしれません。

TOP / 検索 Amazonで探す