蘋果新 Siri 超級(jí)碗知識(shí)測(cè)試大翻車,準(zhǔn)確率僅 34%

新版Siri在超級(jí)碗歷史問(wèn)題測(cè)試中表現(xiàn)糟糕,準(zhǔn)確率僅34%,出現(xiàn)錯(cuò)誤及無(wú)關(guān)信息。蘋果正開(kāi)發(fā)更智能版Siri,預(yù)計(jì)2025年WWDC發(fā)布,基于LLM,將更好競(jìng)爭(zhēng)ChatGPT。

近日消息,一項(xiàng)針對(duì)蘋果虛擬助手 Siri(新版)的測(cè)試顯示,其在回答超級(jí)碗歷史相關(guān)問(wèn)題時(shí)表現(xiàn)非常糟糕。測(cè)試結(jié)果表明,新版 Siri 在 58 屆超級(jí)碗的冠軍歸屬問(wèn)題中,僅正確回答了 20 次,準(zhǔn)確率僅為 34%。

蘋果新 Siri 超級(jí)碗知識(shí)測(cè)試大翻車,準(zhǔn)確率僅 34%

此次測(cè)試由 One Foot Tsunami 的 Paul Kafasis 設(shè)計(jì)并執(zhí)行。他逐一詢問(wèn)新版 Siri 從第一屆到第六十屆超級(jí)碗的冠軍得主,并記錄其回答。結(jié)果顯示,新版 Siri 的表現(xiàn)令人失望,尤其是在某些問(wèn)題上出現(xiàn)了明顯的錯(cuò)誤。例如,新版 Siri 多次錯(cuò)誤地將 33 次超級(jí)碗冠軍歸于費(fèi)城老鷹隊(duì),而實(shí)際上該隊(duì)歷史上僅贏得過(guò)一次冠軍。此外,新版 Siri 的回答中還出現(xiàn)了與問(wèn)題無(wú)關(guān)的足球信息,甚至在某些情況下提供了錯(cuò)誤的超級(jí)碗屆數(shù)信息。

盡管新版 Siri 確實(shí)給出了一些連續(xù)準(zhǔn)確的答案,例如正確回答了第五至第七屆超級(jí)碗的冠軍,但其在第十七屆至第三十二屆超級(jí)碗的問(wèn)題上連續(xù) 15 次回答錯(cuò)誤,凸顯了其知識(shí)庫(kù)的局限性。而且,當(dāng)被問(wèn)及第十六屆超級(jí)碗時(shí),新版 Siri 甚至建議用戶向 ChatGPT 尋求答案,而后者則提供了正確答案。這一對(duì)比進(jìn)一步暴露了新版 Siri 與更先進(jìn)的 AI 系統(tǒng)之間的差距。

測(cè)試在運(yùn)行 iOS 18.2.1 并啟用 Apple Intelligence 的設(shè)備上進(jìn)行,同時(shí)在即將發(fā)布的 iOS 18.3 測(cè)試版和 macOS 14.7.2 中也發(fā)現(xiàn)了類似問(wèn)題,表明這一問(wèn)題在蘋果多個(gè)平臺(tái)上普遍存在。Kafasis 已將測(cè)試結(jié)果整理成 Excel 和 PDF 格式的表格,供公眾查閱。

受 Kafasis 測(cè)試的啟發(fā),Daring Fireball 的 John Gruber 也對(duì)新版 Siri 進(jìn)行了類似的體育問(wèn)題測(cè)試,并將其與 ChatGPT、Kagi、DuckDuckGo 和 Google 的表現(xiàn)進(jìn)行了對(duì)比。結(jié)果顯示,其他 AI 系統(tǒng)均能正確回答問(wèn)題,而新版 Siri 則屢屢答錯(cuò)。更糟糕的是,Gruber 發(fā)現(xiàn),舊版 Siri(即未啟用 Apple Intelligence 的版本)在無(wú)法回答問(wèn)題時(shí),會(huì)提供一組網(wǎng)頁(yè)鏈接,其中第一個(gè)鏈接通常能提供部分正確答案。而新版 Siri(啟用 Apple Intelligence 并集成 ChatGPT 功能后)的表現(xiàn)卻更差,不僅回答錯(cuò)誤,而且每次嘗試都會(huì)給出不同的錯(cuò)誤答案。

Gruber 對(duì)此評(píng)論道:“新版 Siri 的回答不僅完全錯(cuò)誤,而且看似合理,這是最糟糕的錯(cuò)誤方式。更令人難以置信的是,Siri 在一個(gè)如此受歡迎的主題上表現(xiàn)得如此愚蠢?!彼€指出,新版 Siri 連一半的超級(jí)碗問(wèn)題都不能答對(duì)。

事實(shí)上,Siri 的整體表現(xiàn)長(zhǎng)期以來(lái)一直備受詬病,Gruber 對(duì)其“看似合理但實(shí)際錯(cuò)誤”的回答的批評(píng),也反映了當(dāng)前 AI 聊天機(jī)器人在回答常識(shí)性問(wèn)題時(shí)普遍存在的“幻覺(jué)”問(wèn)題 —— 即自信地提供誤導(dǎo)性或完全錯(cuò)誤的答案。

據(jù)悉,蘋果正在開(kāi)發(fā)一款基于先進(jìn)大語(yǔ)言模型(LLM)的更智能版 Siri,預(yù)計(jì)將使其能夠更好地與 ChatGPT 等聊天機(jī)器人競(jìng)爭(zhēng)。更智能版 Siri 可能支持持續(xù)對(duì)話,并提供類似于 ChatGPT 或 Claude 的幫助和見(jiàn)解。預(yù)計(jì)蘋果最早會(huì)在 2025 年的全球開(kāi)發(fā)者大會(huì)(WWDC)上發(fā)布 LLM 版 Siri,但正式上線可能要等到幾個(gè)月后。這意味著 LLM 版 Siri 將作為 iOS 19 的更新內(nèi)容推出,iOS 19 預(yù)計(jì)在 2026 年春季正式上線。

原創(chuàng)文章,作者:蘋果派,如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.2079x.cn/article/704397.html

蘋果派的頭像蘋果派管理團(tuán)隊(duì)

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評(píng)論