蘋果推出Ferret-UI：AI新突破，讓手機界面“開口說話”

野游栗 ? 2024年4月10日 23:31:00 ? 新聞

在人工智能領(lǐng)域，蘋果公司近日再次引領(lǐng)創(chuàng)新潮流，發(fā)布了名為Ferret-UI的多模態(tài)大語言模型。這一模型被設(shè)計為專門理解并解析移動應(yīng)用程序屏幕上的內(nèi)容，為智能手機的使用體驗帶來了革命性的提升。

據(jù)悉，傳統(tǒng)的AI大語言模型，如ChatGPT等，其訓(xùn)練材料多限于文本內(nèi)容。然而，隨著科技的進步和用戶需求的變化，多模態(tài)大語言模型（MLLMs）應(yīng)運而生，旨在理解包括圖像、視頻和音頻在內(nèi)的非文本內(nèi)容。不過，目前的多模態(tài)模型在理解移動應(yīng)用程序界面方面仍面臨諸多挑戰(zhàn)，比如手機屏幕的寬高比與訓(xùn)練圖像不同，以及界面元素如圖標和按鈕相對較小等問題。

針對這些挑戰(zhàn)，蘋果公司研發(fā)了Ferret-UI模型。該模型在Ferret的基礎(chǔ)上進行了創(chuàng)新，引入了“任意分辨率”技術(shù)，使得模型能夠放大界面細節(jié)，并增強視覺功能。此外，蘋果還精心收集了大量初級用戶界面任務(wù)的訓(xùn)練樣本，這些樣本都帶有區(qū)域注釋的指令，便于模型進行精確的引用和定位。

為進一步提升Ferret-UI的推理能力，蘋果公司還編制了高級任務(wù)數(shù)據(jù)集，包括詳細描述、感知/交互對話和功能推斷等任務(wù)。這些任務(wù)不僅考驗?zāi)Ｐ蛯缑嬖氐睦斫饽芰?，還考驗其生成自然語言指令的能力。

在測試中，F(xiàn)erret-UI表現(xiàn)出色，尤其在描述和交互對話任務(wù)中，能夠生成與視覺組件相關(guān)的詳細討論，并提出以特定目標為導(dǎo)向的行動計劃。此外，該模型還能通過功能推斷來解釋屏幕的整體目的，顯示出在理解和生成自然語言指令方面的高級能力。

蘋果在相關(guān)論文中表示，與其他MLLMs模型相比，F(xiàn)erret-UI在理解和解析移動應(yīng)用界面方面更為優(yōu)秀，甚至在多個基礎(chǔ)UI任務(wù)上超越了現(xiàn)有的GPT-4V模型。這一創(chuàng)新不僅有望提升蘋果設(shè)備的用戶體驗，還可能對整個移動應(yīng)用生態(tài)產(chǎn)生深遠影響。

行業(yè)專家和分析師對Ferret-UI的發(fā)布給予了高度評價。他們認為，這一模型的成功應(yīng)用將推動多模態(tài)大語言模型在移動應(yīng)用領(lǐng)域的發(fā)展，為未來的智能設(shè)備帶來更加智能、便捷的用戶交互體驗。

雖然Ferret-UI的發(fā)布為人工智能領(lǐng)域帶來了新的突破，但關(guān)于其在實際應(yīng)用中的表現(xiàn)仍需要進一步觀察。未來，我們期待看到更多關(guān)于Ferret-UI在實際場景中的應(yīng)用案例和效果評估，以進一步了解其優(yōu)勢和局限性。

總之，蘋果推出的Ferret-UI多模態(tài)大語言模型，為理解和解析移動應(yīng)用界面提供了新的解決方案，有望為用戶帶來更加智能、便捷的使用體驗。這一創(chuàng)新不僅展示了蘋果在人工智能領(lǐng)域的領(lǐng)先地位，也為整個行業(yè)的發(fā)展提供了新的思路和方向。

原創(chuàng)文章，作者：野游栗，如若轉(zhuǎn)載，請注明出處：http://m.2079x.cn/article/645608.html

Ferret-UI 人工智能多模態(tài)大語言模型蘋果

野游栗認證作者

0 0

新聞

消息稱?蘋果攝像頭版Apple Watch開發(fā)中止

據(jù)彭博社援引知情人士消息稱，蘋果公司已暫停配備攝像頭的Apple Watch開發(fā)計劃。該項目原定于2027年推出，旨在通過手表攝像頭實現(xiàn)環(huán)境信息識別，但內(nèi)部近期決定中止推進，具體原…

Apple
17小時前
商業(yè)

?OpenAI宣布65億美元收購Jony Ive初創(chuàng)公司io

OpenAI于5月22日宣布以65億美元全股票收購前蘋果首席設(shè)計官Jony Ive創(chuàng)立的AI設(shè)備公司io，創(chuàng)下該公司史上最大并購記錄。此次交易不僅整合了io團隊55名硬件工程師及制…

李小白
1天前
手機

?蘋果宣布iPhone 7 Plus及部分iPhone8列入過時產(chǎn)品

今日，蘋果更新產(chǎn)品支持頁面，正式將iPhone7 Plus及64GB/256GB版iPhone8列為“過時”（vintage）產(chǎn)品。這是繼（PRODUCT）RED紅色版iPhone…

Apple
1天前
新聞

Canalys：?全球TWS耳機市場強勁反彈，蘋果小米領(lǐng)漲一季度出貨量

2025年第一季度全球真無線耳機（TWS）市場迎來強勢復(fù)蘇，Canalys最新報告顯示，行業(yè)總出貨量達7800萬臺，同比增長18%，創(chuàng)下2021年以來最高增速。這一增長主要由頭部廠…

net
1天前
產(chǎn)品

?亞馬遜入局大尺寸折疊設(shè)備市場挑戰(zhàn)華為蘋果霸主地位

行業(yè)分析師郭明錤近日透露，亞馬遜正秘密研發(fā)一款對標華為MateBook Fold的大尺寸折疊設(shè)備，意圖切入高端折疊電子產(chǎn)品賽道。這款設(shè)備定位與蘋果傳聞中的雙屏折疊產(chǎn)品形成直接競爭—…

李森
2天前
新聞

?蘋果WWDC25時間確定：iOS19迎十年最大更新，Siri升級或跳票至2026

近日，蘋果公司公布了WWDC25時間信息，公司宣布全球開發(fā)者大會（WWDC25）將于太平洋時間6月9日至13日（北京時間6月10日至14日）在線舉辦，并在加州Apple Park同…

Apple
2天前
手機

蘋果iPhone17Air vs iPhone16Plus：輕薄度實現(xiàn)重大突破

蘋果即將在9月發(fā)布的全新iPhone 17 Air引發(fā)了業(yè)界廣泛關(guān)注。近日，最新曝光的機模展示了蘋果iPhone17Air vs iPhone16Plus的不同之處。這款替代iPh…

Apple
3天前
新聞

蘋果因LGBT內(nèi)容在俄又被罰九百萬盧布

5月20日最新判決顯示，科技巨頭蘋果公司因三項涉及LGBT內(nèi)容傳播的違規(guī)行為，被罰以總計750萬盧布罰款，加上另項未屏蔽非法網(wǎng)絡(luò)信息的300萬罰金，合計1050萬盧布（約94萬元人…

聆聽
3天前
新聞

蘋果封鎖降級通道：停止簽署iOS 18.4.1

蘋果今日宣布正式關(guān)閉iOS 18.4.1系統(tǒng)驗證通道。數(shù)百萬已升級iOS 18.5的用戶發(fā)現(xiàn)，他們的iPhone再也回不到舊版本。這個決定比往常來得更急——距離iOS 18.5發(fā)布…

Apple
3天前
新聞

蘋果與Epic官司動態(tài)：5月27日未和解高管或被強制出庭

據(jù)最新消息，Epic與蘋果的世紀官司迎來最新回合。加州法院最新文件顯示，若5月27日前雙方未達成和解，蘋果合規(guī)事務(wù)副總裁將親自出席聽證會。這場持續(xù)五年的拉鋸戰(zhàn)已累計消耗雙方超1.2…

net
3天前
新聞

蘋果推送iPadOS 17.7.8更新：修復(fù)老設(shè)備重大安全漏洞

今日，蘋果公司正式推出iPadOS 17.7.8系統(tǒng)更新，主要面向2017款iPad Pro和2018款第六代iPad用戶。本次更新距離問題頻出的17.7.7版本被緊急撤回僅過去7…

Apple
3天前
新聞

蘋果 AI 電池優(yōu)化技術(shù)將隨 iOS 19 登場劍指 iPhone 17 Air 續(xù)航痛點 ?

當谷歌和OpenAI在生成式AI領(lǐng)域高調(diào)廝殺時，蘋果正悄然推進一場更貼近用戶日常痛點的革命。據(jù)彭博社知名記者馬克·古爾曼披露，蘋果將在9月發(fā)布的 iOS 19 中推出基于 Appl…

蘋果派
4天前
新聞

蘋果向歐盟用戶開放語音助手自由切換權(quán) 取代內(nèi)置的Siri

近日，蘋果公司被曝正推進一項重大調(diào)整，允許歐盟地區(qū)的iPhone、iPad及Mac用戶將第三方語音助手設(shè)為默認選項，取代內(nèi)置的Siri。據(jù)彭博社記者Mark Gurman與Drak…

Apple
4天前
新聞

《堡壘之夜》遭蘋果阻止上架App Store Epic控訴蘋果審核“拖延戰(zhàn)術(shù)”

當?shù)貢r間5月16日，Epic Games通過《堡壘之夜》官方賬號宣布，該游戲?qū)募慈掌鹪谌蚍秶顺鰅OS平臺。此次下架源于蘋果公司拒絕通過其提交的更新申請，導(dǎo)致游戲無法登陸美國A…

好奇寶寶
6天前
新聞

因更新bug 蘋果停止簽署iPadOS 17.7.7

據(jù)開發(fā)者社區(qū)確認，蘋果已于5月16日停止該系統(tǒng)版本簽名驗證，原因是由于此前向老款iPad推送的iPadOS 17.7.7更新（版本號21H433）引發(fā)的連鎖反應(yīng)。這意味著已升級用戶…

蘋果派
2025年5月16日
手機

蘋果iPhone 17 Pro Max傳聞：6.9英寸巨屏+三攝大改

近日，蘋果2025年度旗艦iPhone 17 Pro Max傳聞信息迎來密集爆料。據(jù)供應(yīng)鏈消息，這款“史上改動最大”的機型已完成工程驗證，預(yù)計9月10日正式發(fā)布，并于9月19日開售…

Apple
2025年5月16日
商業(yè)

美股科技七巨頭“熄火” 黃金大反彈

當?shù)貢r間5月15日，美股三大指數(shù)漲跌互現(xiàn)：道瓊斯指數(shù)上漲0.65%至42,322.75點，標普500指數(shù)微漲0.41%至5,916.93點，創(chuàng)3月3日以來新高，納斯達克指數(shù)則結(jié)束六…

商業(yè)頭條
2025年5月16日
AI

OpenAI 上線安全評估中心，定期公開 AI 模型評估結(jié)果以提升透明度

OpenAI 將公開內(nèi)部人工智能模型安全評估結(jié)果，以提高透明度。安全評估中心將展示模型在有害內(nèi)容生成、模型越獄以及幻覺現(xiàn)象等方面的測試表現(xiàn)。OpenAI 旨在支持透明度，發(fā)布更多評估項目。

好奇寶寶
2025年5月15日
新聞

蘋果預(yù)熱 WWDC 2025：開發(fā)者 App 更新上線新增 Genmoji 趣味貼紙

蘋果推出新版 Developer 應(yīng)用，提供大會信息獲取渠道、參會功能等，將發(fā)布多款操作系統(tǒng)更新。此外，推出新一波 Genmoji 風格貼紙，為開發(fā)者和用戶增添交流樂趣。

李小白
2025年5月15日
新聞

蘋果據(jù)悉計劃為Vision Pro頭顯添加眼動滾屏功能

蘋果正在為 Vision Pro 頭顯開發(fā)眼球滾動瀏覽功能，提升交互體驗。在即將推出的 Vision Pro 操作系統(tǒng)中測試，計劃在 6 月 9 日召開年度開發(fā)者大會推出。

若安丶
2025年5月15日

發(fā)表回復(fù)

登錄后才能評論

蘋果推出Ferret-UI：AI新突破，讓手機界面“開口說話”

相關(guān)推薦

發(fā)表回復(fù)