多模態模型 — iPAS AI應用規劃師中級考試

📌 定義與考試定位

什麼是多模態模型？（考試必知）

多模態模型（Multimodal Model）能同時處理兩種以上的資料型態（模態），整合不同來源的資訊做出預測或生成輸出。

🖼️ 視覺（Vision）

圖片、影片、醫療影像、衛星圖像。CNN / ViT 負責特徵提取。

▶ 考點：CNN 用於影像處理

📝 語言（Text/NLP）

文字、問答、摘要。Transformer / BERT 負責語意理解。

▶ 考點：Word2Vec、詞嵌入

🔊 語音（Audio）

語音辨識（ASR）、說話者識別。Mel Spectrogram 轉圖後用 CNN。

▶ 考點：語音轉文字流程

📊 結構化資料

表格、感測器數值。MLP 或 GBM 處理後與其他模態融合。

▶ 考點：融合前的特徵工程

🔀 融合策略 — 高頻考點

Early Fusion（早期融合）

Late Fusion（晚期融合）

Hybrid Fusion（混合融合）

在輸入端就把多種模態的特徵直接串接（Concatenate），然後一起送入模型。

✅ 優點

模態間互動強，可學習跨模態關聯；架構簡單，端到端訓練。

❌ 缺點

不同模態維度差異大，需對齊；一個模態資料缺失就影響整體。

📌 考試重點：多模態資料整合採用 Transformer 架構屬於 Early Fusion 概念；CLIP 使用對比學習對齊圖文特徵也屬此類。

各模態分別訓練各自的模型，最後在決策層（輸出端）融合結果（投票、加權平均等）。

✅ 優點

各模態模型可獨立訓練、替換；模態缺失影響較小（有備用）。

❌ 缺點

無法學習細粒度跨模態關聯；需多個模型，計算成本高。

結合 Early 和 Late Fusion，在中間層交換資訊（Cross-Attention），現代大模型多採此策略。

📌 考試重點：GPT-4V、Gemini、LLaVA 等現代多模態大模型均採 Hybrid Fusion + Cross-Attention 架構。

🔗 CLIP 模型（考試必考）

CLIP — Contrastive Language-Image Pre-training

OpenAI 開發，使用對比學習（Contrastive Learning）讓圖片與文字對齊到同一向量空間。

// 對比損失公式（InfoNCE Loss）
L = -log( exp(sim(I, T₊) / τ) / Σexp(sim(I, T_j) / τ) )
// I = 圖片向量，T+ = 對應文字，τ = 溫度參數
// 讓配對的 (圖片,文字) 相似度最大，不配對的最小

零樣本分類

不需要額外訓練，直接用文字描述分類圖片。「這是一隻貓」vs「這是一隻狗」。

▶ Zero-shot Classification

圖文檢索

輸入文字找最相關的圖片，或輸入圖片找最相關的文字描述。

▶ Cross-modal Retrieval

多模態嵌入

圖片與文字投影到同一向量空間，cos 相似度越大代表語意越接近。

▶ Shared Embedding Space

📋 考試重點速查表

模型/技術	模態	核心功能	考試關鍵字
CLIP	圖片 + 文字	對比學習對齊圖文	對比損失零樣本
DALL-E / Stable Diffusion	文字 → 圖片	文生圖（生成式多模態）	生成式AI
GPT-4V / Gemini	圖片 + 文字	視覺問答 (VQA)	Hybrid Fusion
Whisper	語音 → 文字	語音辨識（ASR）	Transformer
CNN	圖片	影像特徵提取	捲積池化
Word2Vec / BERT	文字	詞嵌入 / 語意理解	詞嵌入
YOLO	圖片/影片	即時物件偵測	實時偵測

🏭 應用場景（情境題常考）

🏥 醫療影像 + 病歷

X光/CT影像（視覺）+ 病歷文字（NLP）→ 輔助診斷。Early Fusion 讓模型同時考量兩種資訊。

▶ 情境題：選最適合的融合策略

🎬 影片字幕生成

影片幀（視覺）+ 語音（Audio）→ 自動生成字幕。需要多模態對齊時間戳。

▶ 考點：多模態標註、時序對齊

🛒 電商搜尋

用戶上傳圖片搜尋商品（以圖搜圖）+ 文字描述細化。CLIP 向量相似度檢索。

▶ 考點：向量資料庫、相似度搜尋

🚗 自動駕駛

攝影機（視覺）+ 雷達（結構化）+ 地圖資料 → 即時決策。Late Fusion 確保任一感測器故障時的容錯。

▶ 考點：Late Fusion 容錯優點

📝 模擬考題（仿 iPAS 中級題型）