近日消息,一項針對蘋果虛擬助手 Siri(新版)的測試顯示,其在回答超級碗歷史相關(guān)問題時表現(xiàn)非常糟糕。測試結(jié)果表明,新版 Siri 在 58 屆超級碗的冠軍歸屬問題中,僅正確回答了 20 次,準(zhǔn)確率僅為 34%。
此次測試由 One Foot Tsunami 的 Paul Kafasis 設(shè)計并執(zhí)行。他逐一詢問新版 Siri 從第一屆到第六十屆超級碗的冠軍得主,并記錄其回答。結(jié)果顯示,新版 Siri 的表現(xiàn)令人失望,尤其是在某些問題上出現(xiàn)了明顯的錯誤。例如,新版 Siri 多次錯誤地將 33 次超級碗冠軍歸于費城老鷹隊,而實際上該隊歷史上僅贏得過一次冠軍。此外,新版 Siri 的回答中還出現(xiàn)了與問題無關(guān)的足球信息,甚至在某些情況下提供了錯誤的超級碗屆數(shù)信息。
盡管新版 Siri 確實給出了一些連續(xù)準(zhǔn)確的答案,例如正確回答了第五至第七屆超級碗的冠軍,但其在第十七屆至第三十二屆超級碗的問題上連續(xù) 15 次回答錯誤,凸顯了其知識庫的局限性。而且,當(dāng)被問及第十六屆超級碗時,新版 Siri 甚至建議用戶向 ChatGPT 尋求答案,而后者則提供了正確答案。這一對比進一步暴露了新版 Siri 與更先進的 AI 系統(tǒng)之間的差距。
測試在運行 iOS 18.2.1 并啟用 Apple Intelligence 的設(shè)備上進行,同時在即將發(fā)布的 iOS 18.3 測試版和 macOS 14.7.2 中也發(fā)現(xiàn)了類似問題,表明這一問題在蘋果多個平臺上普遍存在。Kafasis 已將測試結(jié)果整理成 Excel 和 PDF 格式的表格,供公眾查閱。
受 Kafasis 測試的啟發(fā),Daring Fireball 的 John Gruber 也對新版 Siri 進行了類似的體育問題測試,并將其與 ChatGPT、Kagi、DuckDuckGo 和 Google 的表現(xiàn)進行了對比。結(jié)果顯示,其他 AI 系統(tǒng)均能正確回答問題,而新版 Siri 則屢屢答錯。更糟糕的是,Gruber 發(fā)現(xiàn),舊版 Siri(即未啟用 Apple Intelligence 的版本)在無法回答問題時,會提供一組網(wǎng)頁鏈接,其中第一個鏈接通常能提供部分正確答案。而新版 Siri(啟用 Apple Intelligence 并集成 ChatGPT 功能后)的表現(xiàn)卻更差,不僅回答錯誤,而且每次嘗試都會給出不同的錯誤答案。
Gruber 對此評論道:“新版 Siri 的回答不僅完全錯誤,而且看似合理,這是最糟糕的錯誤方式。更令人難以置信的是,Siri 在一個如此受歡迎的主題上表現(xiàn)得如此愚蠢?!彼€指出,新版 Siri 連一半的超級碗問題都不能答對。
事實上,Siri 的整體表現(xiàn)長期以來一直備受詬病,Gruber 對其“看似合理但實際錯誤”的回答的批評,也反映了當(dāng)前 AI 聊天機器人在回答常識性問題時普遍存在的“幻覺”問題 —— 即自信地提供誤導(dǎo)性或完全錯誤的答案。
據(jù)悉,蘋果正在開發(fā)一款基于先進大語言模型(LLM)的更智能版 Siri,預(yù)計將使其能夠更好地與 ChatGPT 等聊天機器人競爭。更智能版 Siri 可能支持持續(xù)對話,并提供類似于 ChatGPT 或 Claude 的幫助和見解。預(yù)計蘋果最早會在 2025 年的全球開發(fā)者大會(WWDC)上發(fā)布 LLM 版 Siri,但正式上線可能要等到幾個月后。這意味著 LLM 版 Siri 將作為 iOS 19 的更新內(nèi)容推出,iOS 19 預(yù)計在 2026 年春季正式上線。
原創(chuàng)文章,作者:蘋果派,如若轉(zhuǎn)載,請注明出處:http://m.2079x.cn/article/704397.html