蘋果新 Siri 超級(jí)碗知識(shí)測(cè)試大翻車，準(zhǔn)確率僅 34%

蘋果派 ? 2025年1月30日 12:10:00 ? 新聞

新版Siri在超級(jí)碗歷史問(wèn)題測(cè)試中表現(xiàn)糟糕，準(zhǔn)確率僅34%，出現(xiàn)錯(cuò)誤及無(wú)關(guān)信息。蘋果正開(kāi)發(fā)更智能版Siri，預(yù)計(jì)2025年WWDC發(fā)布，基于LLM，將更好競(jìng)爭(zhēng)ChatGPT。

近日消息，一項(xiàng)針對(duì)蘋果虛擬助手 Siri（新版）的測(cè)試顯示，其在回答超級(jí)碗歷史相關(guān)問(wèn)題時(shí)表現(xiàn)非常糟糕。測(cè)試結(jié)果表明，新版 Siri 在 58 屆超級(jí)碗的冠軍歸屬問(wèn)題中，僅正確回答了 20 次，準(zhǔn)確率僅為 34%。

蘋果新 Siri 超級(jí)碗知識(shí)測(cè)試大翻車，準(zhǔn)確率僅 34%

此次測(cè)試由 One Foot Tsunami 的 Paul Kafasis 設(shè)計(jì)并執(zhí)行。他逐一詢問(wèn)新版 Siri 從第一屆到第六十屆超級(jí)碗的冠軍得主，并記錄其回答。結(jié)果顯示，新版 Siri 的表現(xiàn)令人失望，尤其是在某些問(wèn)題上出現(xiàn)了明顯的錯(cuò)誤。例如，新版 Siri 多次錯(cuò)誤地將 33 次超級(jí)碗冠軍歸于費(fèi)城老鷹隊(duì)，而實(shí)際上該隊(duì)歷史上僅贏得過(guò)一次冠軍。此外，新版 Siri 的回答中還出現(xiàn)了與問(wèn)題無(wú)關(guān)的足球信息，甚至在某些情況下提供了錯(cuò)誤的超級(jí)碗屆數(shù)信息。

盡管新版 Siri 確實(shí)給出了一些連續(xù)準(zhǔn)確的答案，例如正確回答了第五至第七屆超級(jí)碗的冠軍，但其在第十七屆至第三十二屆超級(jí)碗的問(wèn)題上連續(xù) 15 次回答錯(cuò)誤，凸顯了其知識(shí)庫(kù)的局限性。而且，當(dāng)被問(wèn)及第十六屆超級(jí)碗時(shí)，新版 Siri 甚至建議用戶向 ChatGPT 尋求答案，而后者則提供了正確答案。這一對(duì)比進(jìn)一步暴露了新版 Siri 與更先進(jìn)的 AI 系統(tǒng)之間的差距。

測(cè)試在運(yùn)行 iOS 18.2.1 并啟用 Apple Intelligence 的設(shè)備上進(jìn)行，同時(shí)在即將發(fā)布的 iOS 18.3 測(cè)試版和 macOS 14.7.2 中也發(fā)現(xiàn)了類似問(wèn)題，表明這一問(wèn)題在蘋果多個(gè)平臺(tái)上普遍存在。Kafasis 已將測(cè)試結(jié)果整理成 Excel 和 PDF 格式的表格，供公眾查閱。

受 Kafasis 測(cè)試的啟發(fā)，Daring Fireball 的 John Gruber 也對(duì)新版 Siri 進(jìn)行了類似的體育問(wèn)題測(cè)試，并將其與 ChatGPT、Kagi、DuckDuckGo 和 Google 的表現(xiàn)進(jìn)行了對(duì)比。結(jié)果顯示，其他 AI 系統(tǒng)均能正確回答問(wèn)題，而新版 Siri 則屢屢答錯(cuò)。更糟糕的是，Gruber 發(fā)現(xiàn)，舊版 Siri（即未啟用 Apple Intelligence 的版本）在無(wú)法回答問(wèn)題時(shí)，會(huì)提供一組網(wǎng)頁(yè)鏈接，其中第一個(gè)鏈接通常能提供部分正確答案。而新版 Siri（啟用 Apple Intelligence 并集成 ChatGPT 功能后）的表現(xiàn)卻更差，不僅回答錯(cuò)誤，而且每次嘗試都會(huì)給出不同的錯(cuò)誤答案。

Gruber 對(duì)此評(píng)論道：“新版 Siri 的回答不僅完全錯(cuò)誤，而且看似合理，這是最糟糕的錯(cuò)誤方式。更令人難以置信的是，Siri 在一個(gè)如此受歡迎的主題上表現(xiàn)得如此愚蠢?！彼€指出，新版 Siri 連一半的超級(jí)碗問(wèn)題都不能答對(duì)。

事實(shí)上，Siri 的整體表現(xiàn)長(zhǎng)期以來(lái)一直備受詬病，Gruber 對(duì)其“看似合理但實(shí)際錯(cuò)誤”的回答的批評(píng)，也反映了當(dāng)前 AI 聊天機(jī)器人在回答常識(shí)性問(wèn)題時(shí)普遍存在的“幻覺(jué)”問(wèn)題 —— 即自信地提供誤導(dǎo)性或完全錯(cuò)誤的答案。

據(jù)悉，蘋果正在開(kāi)發(fā)一款基于先進(jìn)大語(yǔ)言模型（LLM）的更智能版 Siri，預(yù)計(jì)將使其能夠更好地與 ChatGPT 等聊天機(jī)器人競(jìng)爭(zhēng)。更智能版 Siri 可能支持持續(xù)對(duì)話，并提供類似于 ChatGPT 或 Claude 的幫助和見(jiàn)解。預(yù)計(jì)蘋果最早會(huì)在 2025 年的全球開(kāi)發(fā)者大會(huì)（WWDC）上發(fā)布 LLM 版 Siri，但正式上線可能要等到幾個(gè)月后。這意味著 LLM 版 Siri 將作為 iOS 19 的更新內(nèi)容推出，iOS 19 預(yù)計(jì)在 2026 年春季正式上線。

原創(chuàng)文章，作者：蘋果派，如若轉(zhuǎn)載，請(qǐng)注明出處：http://m.2079x.cn/article/704397.html

Siri 蘋果

蘋果派管理團(tuán)隊(duì)

0 0

手機(jī)

?iPhone 17 Pro Max手機(jī)殼曝光：后攝模組面積翻倍引熱議

近日，海外爆料者@lusiRoy8通過(guò)社交平臺(tái)X發(fā)布了一組疑似iPhone 17 Pro Max的機(jī)模與手機(jī)殼照片，再次引發(fā)網(wǎng)友對(duì)蘋果新機(jī)設(shè)計(jì)的討論。照片顯示，該機(jī)型背部采用橫向超…

李森
4小時(shí)前
新聞

蘋果推送watchOS 11.5 Beta 2：升級(jí)需搭配iOS 18.5測(cè)試版

蘋果公司今日向開(kāi)發(fā)者推送了Apple Watch最新系統(tǒng)watchOS 11.5的第二個(gè)測(cè)試版（Beta 2），內(nèi)部版本號(hào)為22T5553d。此次更新距離上一版Beta/RC版本僅…

Apple
5小時(shí)前
新聞

?蘋果macOS 15.5 Beta 2推送：系統(tǒng)優(yōu)化為主，WWDC新版本倒計(jì)時(shí)

今日，蘋果向Mac電腦用戶推送了?macOS 15.5開(kāi)發(fā)者預(yù)覽版Beta 2?更新（內(nèi)部版本號(hào)：24F5053f），距離上一版本發(fā)布間隔12天。此次更新未引入顯著新功能，主要聚焦…

Apple
8小時(shí)前
新聞

?蘋果iOS 18.5 Beta 2發(fā)布：郵件界面優(yōu)化，設(shè)置選項(xiàng)更直觀

今日，蘋果公司正式向iPhone和iPad用戶推送了iOS 18.5與iPadOS 18.5開(kāi)發(fā)者預(yù)覽版Beta 2更新（內(nèi)部版本號(hào)：22F5053f）。此次更新距離上一版本發(fā)布間…

Apple
9小時(shí)前
商業(yè)

美股三大股指集體收跌特斯拉跌超7%

北京時(shí)間4月11日，美國(guó)股市經(jīng)歷年內(nèi)最慘烈交易日，三大指數(shù)全線暴跌。道瓊斯工業(yè)指數(shù)重挫2.5%，標(biāo)普500指數(shù)大跌3.46%，納斯達(dá)克綜合指數(shù)更是暴跌4.31%，盤中最大跌幅一度突…

商業(yè)頭條
4天前
產(chǎn)品

蘋果18.8英寸巨型折疊屏來(lái)了明年量產(chǎn)

4月11日，據(jù)分析師Jeff Pu在報(bào)告中表示，蘋果兩款折疊屏設(shè)備的研發(fā)工作取得新進(jìn)展，新品將于明年年底量產(chǎn)，上市時(shí)間預(yù)計(jì)是2026年底或2027年上半年。據(jù)悉，蘋果折疊屏新品有…

蘋果派
4天前
新聞

蘋果從印度空運(yùn)600噸iPhone，備戰(zhàn)美國(guó)關(guān)稅風(fēng)暴

據(jù)供應(yīng)鏈消息人士透露，蘋果公司近日動(dòng)用數(shù)架貨運(yùn)包機(jī)，從印度金奈緊急向美國(guó)空運(yùn)約600噸iPhone手機(jī)，總量達(dá)150萬(wàn)部。這是蘋果首次大規(guī)模從印度生產(chǎn)基地向本土市場(chǎng)直接調(diào)貨，被視為…

Apple
4天前
新聞

特朗普暫停90天執(zhí)行新關(guān)稅蘋果股價(jià)大漲

4月10日，據(jù)媒體報(bào)道，美國(guó)總統(tǒng)特朗普宣布，美國(guó)對(duì)部分貿(mào)易伙伴暫停90天執(zhí)行新關(guān)稅政策，同時(shí)對(duì)中國(guó)的關(guān)稅提高到125%，該消息公布后蘋果股價(jià)飆升了15%。這次反彈使蘋果市值增加了4…

蘋果派
5天前
手機(jī)

蘋果自助維修新增iPhone 16e機(jī)型，49美元租工具包自己修

據(jù)外媒MacRumors 昨日?qǐng)?bào)道，蘋果公司宣布即日起在美國(guó)及多個(gè)歐洲國(guó)家擴(kuò)大自助維修服務(wù)范圍，最新支持的iPhone 16e機(jī)型用戶可通過(guò)官方渠道購(gòu)買原廠配件，并租賃專業(yè)工具包自…

Apple
5天前
新聞

特朗普關(guān)稅新政或致蘋果價(jià)格飆升 iPhone美國(guó)制造或漲價(jià)三倍

據(jù)美國(guó)有線電視新聞網(wǎng)（CNN）最新報(bào)道，美國(guó)前總統(tǒng)特朗普提出的關(guān)稅新政引發(fā)業(yè)界強(qiáng)烈擔(dān)憂。多位行業(yè)專家警告，該政策若實(shí)施將導(dǎo)致電子產(chǎn)品、鞋類等多類商品價(jià)格大幅上漲，其中iPhone在…

科技探索者
5天前
新聞

關(guān)稅陰影下美國(guó)人恐慌性搶購(gòu) iPhone，蘋果周末銷售額遠(yuǎn)高于往年同期

美國(guó)政府新關(guān)稅威脅導(dǎo)致蘋果股價(jià)大跌，但帶動(dòng)銷量增長(zhǎng)，美國(guó)多地門店顧客搶購(gòu) iPhone。蘋果尚未提供應(yīng)對(duì)方法。蘋果將于 5 月 1 日公布第二財(cái)季業(yè)績(jī)。

蘋果派
6天前
新聞

蘋果最薄手機(jī)：iPhone 17 Air 機(jī)模再上手，對(duì)比 iPhone 16e

iPhone 17 Air厚度有望減半，配備單后置攝像頭，攝像頭模塊與 Google Pixel 類似。手機(jī)殼揭示攝像頭布局，采用橫向條形設(shè)計(jì)，打破歷代 iPhone 圓角矩形布局。

蘋果派
6天前
產(chǎn)品

蘋果因特朗普關(guān)稅沖擊市值縮水失去全球最有價(jià)值公司頭銜

4月9日，蘋果公司在本周二失去了全球最有價(jià)值上市公司的頭銜。此前，隨著對(duì)中國(guó)進(jìn)口商品征收高額關(guān)稅的政策生效，蘋果公司的股價(jià)出現(xiàn)了大幅下跌。周二，蘋果公司的股價(jià)下跌了 5%，其市值…

蘋果派
6天前
新聞

?蘋果強(qiáng)硬拒開(kāi)后門：寧退出英國(guó)市場(chǎng)也不妥協(xié)用戶隱私

當(dāng)?shù)貢r(shí)間4月7日，英國(guó)調(diào)查權(quán)力法庭（IPT）公開(kāi)裁定，駁回英國(guó)內(nèi)政部要求對(duì)蘋果公司提起的“加密后門訴訟案”進(jìn)行保密審理的申請(qǐng)，并強(qiáng)制公開(kāi)案件核心細(xì)節(jié)。這場(chǎng)爭(zhēng)議源于英國(guó)政府要求蘋果在…

Apple
2025年4月8日
新聞

?蘋果關(guān)閉iOS降級(jí)通道：iPhone用戶升級(jí)后無(wú)法回退

蘋果公司于4月8日正式關(guān)閉iOS 18.3.2系統(tǒng)驗(yàn)證通道，所有已升級(jí)至iOS 18.4版本的iPhone用戶將無(wú)法再降級(jí)回舊版本。這一操作發(fā)生在iOS 18.4版本發(fā)布一周后，標(biāo)…

Apple
2025年4月8日
商業(yè)

蘋果跌近4% 市值一夜蒸發(fā)7600億元

當(dāng)?shù)貢r(shí)間4月7日，美國(guó)股市在關(guān)稅政策沖擊下延續(xù)震蕩行情，科技巨頭蘋果股價(jià)單日下跌3.67%，蘋果市值蒸發(fā)約1040億美元（約合人民幣7638億元），創(chuàng)下近期最大單日跌幅。當(dāng)日美股…

商業(yè)頭條
2025年4月8日
手機(jī)

蘋果iPhone 17 Pro攝像頭曝光：采用“橫向巨陣”

知名數(shù)碼博主@數(shù)碼閑聊站7月6日發(fā)布iPhone 17 Pro系列機(jī)模渲染圖，確認(rèn)該機(jī)型將采用突破性的“橫向大矩陣”后置三攝模組。該博主此前爆料準(zhǔn)確度超90%，其公布的渲染圖顯示，…

Apple
2025年4月7日
產(chǎn)品

蘋果16Pro的指紋功能在哪？一文讀懂面容識(shí)別設(shè)置方法

在智能手機(jī)生物識(shí)別技術(shù)發(fā)展的浪潮中，蘋果iPhone 16 Pro并沒(méi)有指紋識(shí)別功能，而是搭載的Face ID（面容ID）系統(tǒng)，此功能已成為行業(yè)標(biāo)桿級(jí)的身份認(rèn)證解決方案。這項(xiàng)基于原…

李森
2025年4月6日
產(chǎn)品

蘋果手機(jī)攔截陌生號(hào)碼怎么攔截？一文讀懂操作方法

在數(shù)字化生活日益豐富的今天，手機(jī)已成為連接人與信息的重要樞紐。但隨之而來(lái)的騷擾電話問(wèn)題，卻如同不速之客，打擾著我們的寧?kù)o。蘋果手機(jī)作為智能設(shè)備的標(biāo)桿，其內(nèi)置的防騷擾功能與豐富的第三…

科技探索者
2025年4月6日
產(chǎn)品

蘋果手機(jī)怎么給微信加密碼鎖？一文讀懂操作方法

在數(shù)字隱私日益重要的今天，為微信這類高頻使用的社交應(yīng)用添加防護(hù)鎖，已成為許多蘋果用戶的安全剛需。不同于安卓系統(tǒng)的開(kāi)放生態(tài)，iOS系統(tǒng)在應(yīng)用加密領(lǐng)域有著獨(dú)特的實(shí)現(xiàn)邏輯。以下將通過(guò)四種…

科技探索者
2025年4月5日

發(fā)表回復(fù)

登錄后才能評(píng)論

蘋果新 Siri 超級(jí)碗知識(shí)測(cè)試大翻車，準(zhǔn)確率僅 34%

相關(guān)推薦

發(fā)表回復(fù)