Google Gemini Embedding 2:AI 搜索進入多模態時代

你公司裡面最值錢的知識,AI 搜不到。

不是因為你沒有用 AI,而是因為那些知識根本不是文字。

維修師傅拍的幾百張漏水照片、設計師存了三年的素材庫、銷售團隊錄的客戶訪談影片⋯⋯這些東西藏著大量經驗,但 AI 一直都碰不到。

Google 剛發佈的 Gemini Embedding 2,第一次讓 AI 真正「看懂」這些東西。今天我用最白話的方式講清楚:這個技術到底改變了什麼、能怎麼用、以及什麼時候不該用。

先講一個大家可能不知道的事

AI 不是早就能看圖片了嗎?沒錯,但那是「一對一」的——你丟一張圖,AI 回答你。

但如果你有 100 份 PDF、300 張產品照、50 段培訓影片,你想問「哪張圖跟這個案例最像?」

這時候 AI 就幫不了你了。

為什麼?因為以前 AI 搜索圖片和影片的辦法,是先把它們全部變成文字。

全部變文字之後,AI 才能搜。

但你想想:一張設計圖變成文字描述之後,意思還一樣嗎?

顏色、佈局、比例、那些視覺上的細節,文字根本沒辦法完整表達。資訊不是消失了,是變質了。AI 搜到的是「文字版的圖片」,不是圖片本身的意思。

Gemini Embedding 2 改變了什麼?

這個模型做的事情很簡單但很根本:它直接理解圖片、影片、音訊的「意思」,然後把所有東西放進同一個搜索空間。

不用先轉文字,不用間接翻譯,直接懂。

用圖搜圖、用文字搜影片、用影片搜相關文件——全部都可以。

幾個數字讓你感受一下:

定價 $0.20/MTok,比 OpenAI 同級的 $0.13 貴了一半。但 OpenAI 那個只能處理文字,這個什麼都吃。

實際能怎麼用?三個場景

1. 物業管理:用照片搜維修紀錄

你是物業管理公司,累積了幾百張漏水、牆壁裂縫的維修照片,每張都標了維修方法和費用。

住戶傳了一張新的漏水照片過來,直接上傳問:「以前類似的案例怎麼處理的?」

AI 回你三個最相似的過去案例,附維修方式和報價區間。以前這件事要打電話問老師傅,現在秒搜。

2. 電商:用競品圖搜自家產品

你有幾千張產品圖,客戶傳了一張競爭對手的產品照片問:「你們有沒有類似的?」

以前要人工一張張翻,現在上傳就找到了。

3. 設計 / 製造:用圖搜靈感和品質紀錄

設計師存了三年的靈感素材,以前只能靠資料夾名稱找。現在可以丟一張參考圖,直接搜出風格最接近的素材。

工廠裡每次品質異常拍的照片,以前存了就忘。現在新的異常出現,上傳照片就能找到過去類似的案例和處理方式。

做設計的、做維修的、做零售的、任何需要「看圖比對」的工作,這個功能直接省掉大量人工翻找的時間。

但先別急著全面導入,三個坑要知道

⚠️ 搜物件很強,搜關係很弱

研究顯示,多模態嵌入模型分辨「手機放在地圖上」和「地圖放在手機上」的準確率只有 30-40%。如果你的搜索需要理解物件之間的位置、大小、先後關係,現階段還不夠可靠。

⚠️ 多模態不是免費的升級

Google 上一代純文字嵌入模型在法律文件搜索達到 87% 準確率,換成多模態之後,文字搜索精準度可能反而下降。你多了搜圖片的能力,但原本最強的文字搜索可能變弱了。

⚠️ 一旦用了就很難換

你把所有資料都用 Gemini 嵌入之後,想換 OpenAI 或其他模型?全部要重新跑一次,因為不同模型的嵌入空間完全不相容。鎖定效應很明顯。

我的觀點

這個技術真正重要的不是它多快多準,而是它代表的方向:我們正在從「AI 只懂文字」進入「AI 懂所有媒體」的時代。

過去幾年大家一直在教 AI 搜文字資料,但企業裡面最有價值的知識,往往不是文字。是那些照片、影片、錄音——以前全部搜不到,只能靠「問對的人」。

現在 AI 第一次能真正理解這些東西的意思。不是間接翻譯,是真的懂。

💡 建議

方向絕對是對的。但現階段更適合拿來做實驗,找一個小場景跑通,而不是直接替換你現有的搜索系統。先跑通一個場景 → 驗證效果 → 再決定要不要擴大。

你的工作裡有哪些知識是「藏在圖片和影片裡」的?如果 AI 能直接搜到,你覺得最大的改變會是什麼?

HC

Heison Chow

AI 自動化教練 / Hei.AI 創辦人

6 年電商經驗,帶領團隊從 $3M 成長至 $45M USD。現專注於 AI 自動化教學,幫助中小企業和個人創業者用 n8n、Agent Skills 和 Claude Code 打造自動化系統。YouTube 頻道「Hei_Ai 成長日記」12,000+ 訂閱。

想學習更多 AI 自動化技巧?

加入免費 AI 自動化學習中心

免費加入社群