多模態模型(Multimodal Model)能同時處理兩種以上的資料型態(模態),整合不同來源的資訊做出預測或生成輸出。
在輸入端就把多種模態的特徵直接串接(Concatenate),然後一起送入模型。
各模態分別訓練各自的模型,最後在決策層(輸出端)融合結果(投票、加權平均等)。
結合 Early 和 Late Fusion,在中間層交換資訊(Cross-Attention),現代大模型多採此策略。
OpenAI 開發,使用對比學習(Contrastive Learning)讓圖片與文字對齊到同一向量空間。
| 模型/技術 | 模態 | 核心功能 | 考試關鍵字 |
|---|---|---|---|
| CLIP | 圖片 + 文字 | 對比學習對齊圖文 | 對比損失 零樣本 |
| DALL-E / Stable Diffusion | 文字 → 圖片 | 文生圖(生成式多模態) | 生成式AI |
| GPT-4V / Gemini | 圖片 + 文字 | 視覺問答 (VQA) | Hybrid Fusion |
| Whisper | 語音 → 文字 | 語音辨識(ASR) | Transformer |
| CNN | 圖片 | 影像特徵提取 | 捲積 池化 |
| Word2Vec / BERT | 文字 | 詞嵌入 / 語意理解 | 詞嵌入 |
| YOLO | 圖片/影片 | 即時物件偵測 | 實時偵測 |