你公司裡面最值錢的知識,AI 搜不到。
不是因為你沒有用 AI,而是因為那些知識根本不是文字。
維修師傅拍的幾百張漏水照片、設計師存了三年的素材庫、銷售團隊錄的客戶訪談影片⋯⋯這些東西藏著大量經驗,但 AI 一直都碰不到。
Google 剛發佈的 Gemini Embedding 2,第一次讓 AI 真正「看懂」這些東西。今天我用最白話的方式講清楚:這個技術到底改變了什麼、能怎麼用、以及什麼時候不該用。
先講一個大家可能不知道的事
AI 不是早就能看圖片了嗎?沒錯,但那是「一對一」的——你丟一張圖,AI 回答你。
但如果你有 100 份 PDF、300 張產品照、50 段培訓影片,你想問「哪張圖跟這個案例最像?」
這時候 AI 就幫不了你了。
為什麼?因為以前 AI 搜索圖片和影片的辦法,是先把它們全部變成文字。
- 圖片?先把裡面的字抽出來
- 影片?先轉成逐字稿
- 音訊?先跑語音辨識
全部變文字之後,AI 才能搜。
但你想想:一張設計圖變成文字描述之後,意思還一樣嗎?
顏色、佈局、比例、那些視覺上的細節,文字根本沒辦法完整表達。資訊不是消失了,是變質了。AI 搜到的是「文字版的圖片」,不是圖片本身的意思。
Gemini Embedding 2 改變了什麼?
這個模型做的事情很簡單但很根本:它直接理解圖片、影片、音訊的「意思」,然後把所有東西放進同一個搜索空間。
不用先轉文字,不用間接翻譯,直接懂。
用圖搜圖、用文字搜影片、用影片搜相關文件——全部都可以。
幾個數字讓你感受一下:
- 嵌入模型排行榜第一名,1605 Elo,贏過 OpenAI 所有同類模型
- 文字一次處理 8,192 tokens
- 圖片一次 6 張
- 影片最長 120 秒
- 音訊直接搜,不用先轉文字
定價 $0.20/MTok,比 OpenAI 同級的 $0.13 貴了一半。但 OpenAI 那個只能處理文字,這個什麼都吃。
實際能怎麼用?三個場景
1. 物業管理:用照片搜維修紀錄
你是物業管理公司,累積了幾百張漏水、牆壁裂縫的維修照片,每張都標了維修方法和費用。
住戶傳了一張新的漏水照片過來,直接上傳問:「以前類似的案例怎麼處理的?」
AI 回你三個最相似的過去案例,附維修方式和報價區間。以前這件事要打電話問老師傅,現在秒搜。
2. 電商:用競品圖搜自家產品
你有幾千張產品圖,客戶傳了一張競爭對手的產品照片問:「你們有沒有類似的?」
以前要人工一張張翻,現在上傳就找到了。
3. 設計 / 製造:用圖搜靈感和品質紀錄
設計師存了三年的靈感素材,以前只能靠資料夾名稱找。現在可以丟一張參考圖,直接搜出風格最接近的素材。
工廠裡每次品質異常拍的照片,以前存了就忘。現在新的異常出現,上傳照片就能找到過去類似的案例和處理方式。
做設計的、做維修的、做零售的、任何需要「看圖比對」的工作,這個功能直接省掉大量人工翻找的時間。
但先別急著全面導入,三個坑要知道
研究顯示,多模態嵌入模型分辨「手機放在地圖上」和「地圖放在手機上」的準確率只有 30-40%。如果你的搜索需要理解物件之間的位置、大小、先後關係,現階段還不夠可靠。
Google 上一代純文字嵌入模型在法律文件搜索達到 87% 準確率,換成多模態之後,文字搜索精準度可能反而下降。你多了搜圖片的能力,但原本最強的文字搜索可能變弱了。
你把所有資料都用 Gemini 嵌入之後,想換 OpenAI 或其他模型?全部要重新跑一次,因為不同模型的嵌入空間完全不相容。鎖定效應很明顯。
我的觀點
這個技術真正重要的不是它多快多準,而是它代表的方向:我們正在從「AI 只懂文字」進入「AI 懂所有媒體」的時代。
過去幾年大家一直在教 AI 搜文字資料,但企業裡面最有價值的知識,往往不是文字。是那些照片、影片、錄音——以前全部搜不到,只能靠「問對的人」。
現在 AI 第一次能真正理解這些東西的意思。不是間接翻譯,是真的懂。
方向絕對是對的。但現階段更適合拿來做實驗,找一個小場景跑通,而不是直接替換你現有的搜索系統。先跑通一個場景 → 驗證效果 → 再決定要不要擴大。
你的工作裡有哪些知識是「藏在圖片和影片裡」的?如果 AI 能直接搜到,你覺得最大的改變會是什麼?