近日,來自Google的Gemini3掀起了新一輪的多模態技術浪潮,“讀圖”與“長文本理解”已成為衡量AI智商的核心標準。然而,作為連接圖像與文本的“橋梁”,傳統的CLIP(ContrastiveLanguage-ImagePre-training)模型在面對復雜、多細節的長文本描述時,卻常出現一個怪象:描述越豐富,圖文匹配反而越差。
與此同時,中國聯通數據科學與人工智能研究院在這一領域取得重要進展,提出全新視覺語言對齊框架HiMo-CLIP,通過創新性建模語義層級與單調性,在不修改編碼器架構的前提下,實現了長文本、短文本場景的全維度性能突破。相關論文已入選國際人工智能頂會AAAI2026Oral(總投稿量23680篇,錄用率為17.6%,其中Oral錄用率僅約3.5%)。目前,量子位、CVer、AI思想會、我愛計算機視覺等媒體均對該成果進行了報道。
關于AAAI
AAAI人工智能會議(AAAIConferenceonArtificialIntelligence)是人工智能領域歷史悠久、覆蓋范圍廣的國際學術盛會之一。其學術權威性備受認可,被中國計算機學會(CCF)、中國自動化學會(CAA)及中國人工智能學會(CAAI)共同評定為A類會議。
(論文入選)
問題溯源:CLIP的“扁平化”瓶頸
傳統CLIP模型在處理文本時,往往把句子當作“一鍋粥”,不能在復雜的上下文中捕捉到具區分度的特征。這將導致兩個典型問題:語義層級和語義單調性的缺失。
例如,一張“白色福特F250”的圖片,若描述從“一輛白色卡車”逐步擴展為“帶有超大輪胎、可見車軸、染色車窗的白色福特F250”,理想情況下模型應該越來越確信這是一張匹配的圖片。但現有模型往往做不到這一點。
(隨著描述變長,現有模型分數下降,而HiMo-CLIP(綠勾)穩步提升)
HiMo-CLIP:兩大創新,讓AI“越看越懂”
HiMo-CLIP提出了兩個核心組件,由此讓模型具備了“分層理解”和“越詳細越匹配”的能力:
層次化解構(HiDe):使用批次內主成分分析(PCA),動態提取文本中的關鍵語義成分,讓模型能根據上下文自適應聚焦不同層次的語義信息。比如在同一批數據中,有時“福特F250”是關鍵,有時“染色車窗”更關鍵。
單調性感知對比損失(MoLo):設計雙分支對齊目標,一個分支保持全局圖文對齊,另一個分支將圖像與HiDe提取出的關鍵語義成分對齊。通過聯合優化,模型自然而然地學會“文本越完整,對齊分數越高”的單調性規律。
(HiMo-CLIP框架概覽)
實驗結果:全場景性能碾壓主流基線
HiMo-CLIP在多個經典的長文本、短文本檢索基準,以及自行構造的深度層級數據集HiMo-Docci上進行了廣泛實驗。
在長文本(表1)和短文本(表2)檢索任務上,HiMo-CLIP展現出了顯著的優勢。值得注意的是,HiMo-CLIP僅使用了1M(一百萬)的訓練數據,就擊敗了使用100M甚至10B數據的現有方法(如LoTLIP,SigLIP等),并在多個數據集上刷新SOTA。
(表1長文本檢索結果)
(表2短文本檢索結果)
為系統評估語義單調性,中國聯通數據科學與人工智能研究院提出了HiMo@K指標,用于衡量模型在文本逐步完整時對齊分數是否單調遞增。還通過可視化方式,展示了不同方法的語義單調性表現?,F有方法經常出現“細節增加但匹配度下降”的反直覺現象,而HiMo-CLIP則始終維持穩定遞增的匹配趨勢,符合人類認知。
(HiMo-Docci上的單調性可視化)
HiMo-CLIP的提出標志著多模態學習從“扁平化”向“結構化”的重要轉變。正如論文中所強調:“對齊跨模態表示的多個語義抽象層次,對魯棒且符合認知的視覺-語言理解至關重要。”這一突破不僅提升了長文本檢索性能,更為AI系統理解人類語言的豐富層次結構鋪平了道路,讓機器真正“看懂”我們描述的世界。
未來,中國聯通數據科學與人工智能研究院將持續深化多模態對齊技術的創新與應用,攻克多模態理解中復雜語義結構建模的"關鍵一環",讓具備認知一致性的AI模型在智能客服、醫療影像分析、教育內容生成、電子商務和工業質檢等更多場景中發揮核心價值,推動多模態智能技術向更智能、更可靠、更貼近人類認知的方向發展。
