“考公圖都不會?”大模型真正的難題是:看圖太難!

——VisuRiddles 揭示多模態(tài)大模型在“看圖推理”中的核心瓶頸

考公圖都不會?現(xiàn)在火遍全網(wǎng)的多模態(tài)大模型(MLLMs),面對一張公務員考試里的圖形推理題,居然頻頻“翻車”?真相可能出乎意料:模型不是“不會推理”,而是“沒看懂圖”。

2025年6月,華中科技大學白翔團隊聯(lián)合華為發(fā)布全新研究成果 —— VisuRiddles,一個專為抽象視覺推理設計的評測與數(shù)據(jù)體系,首次系統(tǒng)性揭示了當前大模型在“看圖推理”中的核心瓶頸:感知能力嚴重不足。

本項目不僅發(fā)布了覆蓋五大感知維度+兩類高階任務的基準數(shù)據(jù)集,還創(chuàng)新設計了自動化數(shù)據(jù)合成工具 PRS(感知謎題合成器),能夠生成帶有結構化感知描述的任務樣本,讓模型“看得懂、推得出”。

實驗顯示:在不改變模型結構的前提下,僅使用 PRS 生成的數(shù)據(jù)進行訓練,模型在公務員圖形題上的表現(xiàn)大幅躍升。

推理不難,看懂才難!

VisuRiddles 發(fā)現(xiàn)關鍵問題:大模型看不懂圖
       更提供了解決方案:PRS,讓模型學會“看清楚”!

“考公圖都不會?”大模型真正的難題是:看圖太難!

論文鏈接:https://arxiv.org/abs/2506.02537

代碼地址:https://github.com/yh-hust/VisuRiddles

?? 研究動機:真正的難點不在“推理”,而在“看懂”

隨著大模型(LLMs, MLLMs)在視覺-語言領域的快速進步,當前主流模型在日常圖片理解、圖文生成等任務上已取得顯著突破。然而,抽象視覺推理任務——如國家公務員考試中的圖形推理、智力測驗中的抽象邏輯題——依然被視為“業(yè)界最難啃的骨頭”。相關實驗證明,即便是最強的 GPT-4o、Gemini-2.5 Pro 等多模態(tài)大模型,在這些任務上的表現(xiàn)也大多接近隨機蒙題,遠低于人類平均水平。

“考公圖都不會?”大模型真正的難題是:看圖太難!

過去傳統(tǒng)觀點普遍認為,多模態(tài)大模型在抽象推理場景中的錯誤主要源于推理鏈條不完整或邏輯建構能力不足。但事實可能更出人意料——它們連圖都沒看清楚!

以下圖為例,模型在面對原始圖像輸入時,常常難以準確提取圖形中的關鍵結構與微小變化,例如元素數(shù)量、屬性差異、空間布局等,從而導致推理尚未開始便已走向錯誤路徑。如圖左所示,在感知缺失的情況下,模型雖然嘗試推理,但過程缺乏依據(jù),最終結果錯誤。相比之下,若將輸入替換為細粒度感知描述(圖右),模型能夠依照更明確的視覺信息完成逐步分析,最終作出正確判斷,表現(xiàn)出更穩(wěn)定的推理能力和更具解釋性的推理路徑。

“考公圖都不會?”大模型真正的難題是:看圖太難!

這種差異表明,抽象視覺推理中的關鍵瓶頸并非完全位于邏輯推理階段,而在于推理所依賴的感知階段輸入質(zhì)量。模型的推理失敗往往源于“未能看清”,而非“看清后推錯”,這一點與人類直覺判斷形成顯著反差。

基于上述觀察,文章提出了兩項核心研究貢獻
      一是提出 VisuRiddles 基準,從多個基礎感知和高階推理維度系統(tǒng)評估并量化多模態(tài)大模型在抽象視覺推理中的實際能力;
      二是設計了PRS(感知謎題合成器)框架,通過自動化生成具備細粒度感知描述的任務數(shù)據(jù),為模型提供結構化的感知過程監(jiān)督,有效打通“看清楚—能歸納—會推理”的全鏈路。

?? 研究貢獻一:VisuRiddles——專為“抽象推理”打造的評測基準

為了更好評估大模型在抽象圖形任務中的表現(xiàn),VisuRiddles提出了一套覆蓋廣泛的視覺推理測試體系。不同于以往只關注最終答案,VisuRiddles從感知到推理全鏈路設計,全面考察模型“看懂”和“想明白”的能力。

這個基準融合了真實的公務員圖形題和經(jīng)典智力測試,任務類型豐富,涵蓋:

?? 數(shù)量感知:能否看出圖形數(shù)量的變化?

?? 屬性感知:顏色、形狀這些細節(jié),模型察覺了嗎?

?? 樣式變換:圖形是怎么變的?能總結出規(guī)律嗎?

?? 位置關系:圖形擺放有什么邏輯?

?? 空間結構:面對復雜的空間排列,能否正確理解?

?? 高階推理:包括 RAVEN 和數(shù)獨等任務,考察模型的綜合推理和多步?jīng)Q策能力。

所有題目來自真實題庫,經(jīng)過嚴格篩選和人工審核,保證高質(zhì)量、無歧義、題意明確。不僅適合當前模型的全方位測評,也便于未來任務拓展。

?? 數(shù)據(jù)與評測工具已全面開源,

目前,VisuRiddles 數(shù)據(jù)集與評測代碼已全面開源,為學術界和產(chǎn)業(yè)界提供權威、標準化的模型測評基準。

“考公圖都不會?”大模型真正的難題是:看圖太難!

??研究貢獻二:PRS —— 讓模型真正“看懂圖”的數(shù)據(jù)生成工具

抽象視覺任務難就難在圖看不清、關系找不到。PRS(Perceptual Riddle Synthesizer)就是為了解決這個問題而設計的:它是一個專注于“感知過程”的自動化任務合成工具,能夠大規(guī)模生成結構清晰、描述完整的圖形推理題幫助模型更好地理解圖形細節(jié)。

相比傳統(tǒng)只給“圖+選項”的方式,PRS 提供的題目更有“教學感”:

規(guī)則自動生成:通過建模真實題庫中的常見圖形變化(如旋轉、對稱、數(shù)量變化等),生成具備代表性的任務。

智能干擾設計:每道題都帶有邏輯清晰的干擾選項,保證題目合理、有挑戰(zhàn),但始終只有一個標準答案。

感知信息同步標注:題目不僅有圖,還有每個元素的結構描述,比如顏色、形狀、位置、變化方式等,方便模型學會“看清楚”。

支持感知–推理閉環(huán)訓練:這些數(shù)據(jù)讓模型能夠從“看清圖”開始一步步建立邏輯鏈,而不是直接跳到結論。

值得說明的是,PRS 合成的題目重點在于鍛煉模型的感知能力,因此題目整體難度會低于真實圖形推理題,目標是幫助模型“打好基礎”,把圖先看明白。這樣的訓練方式,能有效提升模型在真實任務中面對細節(jié)復雜圖形時的理解力和穩(wěn)定性。

“考公圖都不會?”大模型真正的難題是:看圖太難!

?? 研究發(fā)現(xiàn):精細感知監(jiān)督 > 推理技巧

模型越大,思維鏈路越長, 并不代表模型推理能力越強

即便是參數(shù)規(guī)模達到幾十億的主流多模態(tài)大模型,在公務員圖形題、RAVEN、數(shù)獨等任務中的表現(xiàn),依舊與人類差距明顯。比如 GPT-4o、Gemini2.5-pro等頂尖模型,在抽象圖形推理中的準確率接近隨機猜測,甚至在結構推理類任務中接近0。一些模型嘗試通過增加參數(shù)量或引入推理技巧(如CoT、Think模式)來“強行提升”能力,但從整體來看,這些方法并不能真正補上感知能力的短板。換句話說,模型規(guī)模和推理模板不是萬能的,感知能力才是前提條件。

“考公圖都不會?”大模型真正的難題是:看圖太難!

模型不是“不會想”,而是“看錯了再想”

進一步對比推理過程發(fā)現(xiàn),即便是具備“思維鏈提示”或“thinking 模式”的模型,也常常因看錯圖形、判斷出錯,從而陷入邏輯閉環(huán)。例如有模型一開始就誤判圖形數(shù)量,導致后續(xù)推理再完整也只能得出錯誤結論。

反觀引入感知描述的模型,能基于結構清晰的輸入,從“看懂”開始,逐步構建出正確的推理鏈條,不但答對了題,還能講清楚理由。

“考公圖都不會?”大模型真正的難題是:看圖太難!

? 感知增強帶來的,是從“亂猜”到“穩(wěn)答”的飛躍

當輸入從原始圖形切換為 PRS 提供的結構化感知描述后,模型表現(xiàn)出現(xiàn)質(zhì)的提升。Qwen2.5VL 的平均準確率直接從 30.9% 飆升至 73.6%,在空間理解、圖形補全、數(shù)獨推理等任務中,單項提升最高達 60+ 分。

這種結果清晰地說明:只靠思維模式和CoT無法彌補“看不清楚”的缺陷,感知能力是大模型做好圖形推理的關鍵變量。

“考公圖都不會?”大模型真正的難題是:看圖太難!

總而言之,文章的實驗帶來了以下結論:

 模型大 ≠ 模型準,推理強 ≠ 理解對;

 看錯圖,怎么“想”都不對;

 感知能力是大模型通向抽象智能的第一道門檻。

?? 總結

在面對抽象圖形任務時,大模型“看錯圖”遠比“想錯邏輯”更致命。VisuRiddles 的研究發(fā)現(xiàn)指出:當前多模態(tài)模型真正的短板不在推理力,而在感知力。

通過構建覆蓋感知與推理全鏈條的評測基準 VisuRiddles,以及自動生成結構化感知數(shù)據(jù)的 PRS 工具,這項工作不僅定位了模型的核心瓶頸,還提供了切實可行的解決方案。實驗也證明:提升模型的感知能力,比盲目擴參或堆疊推理技巧更有效。

這為多模態(tài)智能的發(fā)展指明了一個重要的方向——讓模型先學會“看清楚”,再去“想明白”。

VisuRiddles 數(shù)據(jù)集與評估已全面開源,PRS合成代碼后續(xù)將會逐步開放,歡迎學術界與產(chǎn)業(yè)界共同探索,讓大模型離“真正理解圖形”更進一步。

?? 項目地址:https://github.com/yh-hust/VisuRiddles

?? 抽象圖形推理,先看懂再說話。VisuRiddles,讓大模型從看圖小白走向抽象高手。

本文轉載自:,不代表科技訊之立場。原文鏈接:http://show.wolaioa.com.cn/preview/80l11ORKpBMkSIV6YZErPg.html

陳晨陳晨管理團隊

相關推薦

發(fā)表回復

登錄后才能評論