⭐ 答題得分:0 / 0
MULTIMODAL AI · L21 · L23
多模態模型完全攻略
從融合策略到 CLIP / Transformer,對應 iPAS AI應用規劃師中級考試重點
Early Fusion Late Fusion CLIP Transformer Cross-Attention
📌 定義與考試定位
什麼是多模態模型?(考試必知)

多模態模型(Multimodal Model)能同時處理兩種以上的資料型態(模態),整合不同來源的資訊做出預測或生成輸出。

🖼️ 視覺(Vision)
圖片、影片、醫療影像、衛星圖像。CNN / ViT 負責特徵提取。
▶ 考點:CNN 用於影像處理
📝 語言(Text/NLP)
文字、問答、摘要。Transformer / BERT 負責語意理解。
▶ 考點:Word2Vec、詞嵌入
🔊 語音(Audio)
語音辨識(ASR)、說話者識別。Mel Spectrogram 轉圖後用 CNN。
▶ 考點:語音轉文字流程
📊 結構化資料
表格、感測器數值。MLP 或 GBM 處理後與其他模態融合。
▶ 考點:融合前的特徵工程
🔀 融合策略 — 高頻考點
Early Fusion(早期融合)
Late Fusion(晚期融合)
Hybrid Fusion(混合融合)

在輸入端就把多種模態的特徵直接串接(Concatenate),然後一起送入模型。

圖片特徵 文字特徵 Concat 共用模型 輸出答案
✅ 優點
模態間互動強,可學習跨模態關聯;架構簡單,端到端訓練。
❌ 缺點
不同模態維度差異大,需對齊;一個模態資料缺失就影響整體。
📌 考試重點:多模態資料整合採用 Transformer 架構屬於 Early Fusion 概念;CLIP 使用對比學習對齊圖文特徵也屬此類。

各模態分別訓練各自的模型,最後在決策層(輸出端)融合結果(投票、加權平均等)。

圖片輸入 文字輸入 語音輸入 CNN 模型 BERT 模型 RNN 模型 加權融合 最終輸出
✅ 優點
各模態模型可獨立訓練、替換;模態缺失影響較小(有備用)。
❌ 缺點
無法學習細粒度跨模態關聯;需多個模型,計算成本高。

結合 Early 和 Late Fusion,在中間層交換資訊(Cross-Attention),現代大模型多採此策略。

圖片編碼器 文字編碼器 Cross Attention 融合表示層 輸出層
📌 考試重點:GPT-4V、Gemini、LLaVA 等現代多模態大模型均採 Hybrid Fusion + Cross-Attention 架構。
🔗 CLIP 模型(考試必考)
CLIP — Contrastive Language-Image Pre-training

OpenAI 開發,使用對比學習(Contrastive Learning)讓圖片與文字對齊到同一向量空間。

圖片編碼器 (ViT / ResNet) 文字編碼器 (Transformer) 圖片向量 I 文字向量 T 對比損失 相似度 cos(I,T)
// 對比損失公式(InfoNCE Loss)
L = -log( exp(sim(I, T+) / τ) / Σexp(sim(I, Tj) / τ) )
// I = 圖片向量,T+ = 對應文字,τ = 溫度參數
// 讓配對的 (圖片,文字) 相似度最大,不配對的最小
零樣本分類
不需要額外訓練,直接用文字描述分類圖片。「這是一隻貓」vs「這是一隻狗」。
▶ Zero-shot Classification
圖文檢索
輸入文字找最相關的圖片,或輸入圖片找最相關的文字描述。
▶ Cross-modal Retrieval
多模態嵌入
圖片與文字投影到同一向量空間,cos 相似度越大代表語意越接近。
▶ Shared Embedding Space
📋 考試重點速查表
模型/技術模態核心功能考試關鍵字
CLIP圖片 + 文字對比學習對齊圖文對比損失 零樣本
DALL-E / Stable Diffusion文字 → 圖片文生圖(生成式多模態)生成式AI
GPT-4V / Gemini圖片 + 文字視覺問答 (VQA)Hybrid Fusion
Whisper語音 → 文字語音辨識(ASR)Transformer
CNN圖片影像特徵提取捲積 池化
Word2Vec / BERT文字詞嵌入 / 語意理解詞嵌入
YOLO圖片/影片即時物件偵測實時偵測
🏭 應用場景(情境題常考)
🏥 醫療影像 + 病歷
X光/CT影像(視覺)+ 病歷文字(NLP)→ 輔助診斷。Early Fusion 讓模型同時考量兩種資訊。
▶ 情境題:選最適合的融合策略
🎬 影片字幕生成
影片幀(視覺)+ 語音(Audio)→ 自動生成字幕。需要多模態對齊時間戳。
▶ 考點:多模態標註、時序對齊
🛒 電商搜尋
用戶上傳圖片搜尋商品(以圖搜圖)+ 文字描述細化。CLIP 向量相似度檢索。
▶ 考點:向量資料庫、相似度搜尋
🚗 自動駕駛
攝影機(視覺)+ 雷達(結構化)+ 地圖資料 → 即時決策。Late Fusion 確保任一感測器故障時的容錯。
▶ 考點:Late Fusion 容錯優點
📝 模擬考題(仿 iPAS 中級題型)
🎮 3D 互動視覺化教學
Three.js 即時渲染