マルチモーダルとは?
読み方: マルチモーダル
30秒まとめ
テキスト、画像、音声、動画など複数の形式のデータを統合的に理解・生成するAIの能力。
マルチモーダルの意味・定義
マルチモーダル(Multimodal)とは、テキスト、画像、音声、動画など、複数の種類(モーダリティ)のデータを統合的に理解し、処理するAIの能力を指します。従来のAIモデルはテキストのみ、画像のみといった単一のモーダリティに特化していましたが、GPT-4o、Gemini、Claude 3などの最新モデルはマルチモーダル対応により、画像の内容を理解してテキストで説明したり、テキストの指示から画像を生成したりすることが可能です。これにより、より人間に近い知覚と理解が可能になり、実用的な応用範囲が大幅に拡大しています。