蘋果推出Ferret-UI:AI新突破,讓手機(jī)界面“開口說話”

蘋果推出Ferret-UI:AI新突破,讓手機(jī)界面“開口說話”

人工智能領(lǐng)域,蘋果公司近日再次引領(lǐng)創(chuàng)新潮流,發(fā)布了名為Ferret-UI多模態(tài)大語言模型。這一模型被設(shè)計(jì)為專門理解并解析移動(dòng)應(yīng)用程序屏幕上的內(nèi)容,為智能手機(jī)的使用體驗(yàn)帶來了革命性的提升。

據(jù)悉,傳統(tǒng)的AI大語言模型,如ChatGPT等,其訓(xùn)練材料多限于文本內(nèi)容。然而,隨著科技的進(jìn)步和用戶需求的變化,多模態(tài)大語言模型(MLLMs)應(yīng)運(yùn)而生,旨在理解包括圖像、視頻和音頻在內(nèi)的非文本內(nèi)容。不過,目前的多模態(tài)模型在理解移動(dòng)應(yīng)用程序界面方面仍面臨諸多挑戰(zhàn),比如手機(jī)屏幕的寬高比與訓(xùn)練圖像不同,以及界面元素如圖標(biāo)和按鈕相對(duì)較小等問題。

針對(duì)這些挑戰(zhàn),蘋果公司研發(fā)了Ferret-UI模型。該模型在Ferret的基礎(chǔ)上進(jìn)行了創(chuàng)新,引入了“任意分辨率”技術(shù),使得模型能夠放大界面細(xì)節(jié),并增強(qiáng)視覺功能。此外,蘋果還精心收集了大量初級(jí)用戶界面任務(wù)的訓(xùn)練樣本,這些樣本都帶有區(qū)域注釋的指令,便于模型進(jìn)行精確的引用和定位。

為進(jìn)一步提升Ferret-UI的推理能力,蘋果公司還編制了高級(jí)任務(wù)數(shù)據(jù)集,包括詳細(xì)描述、感知/交互對(duì)話和功能推斷等任務(wù)。這些任務(wù)不僅考驗(yàn)?zāi)P蛯?duì)界面元素的理解能力,還考驗(yàn)其生成自然語言指令的能力。

在測(cè)試中,F(xiàn)erret-UI表現(xiàn)出色,尤其在描述和交互對(duì)話任務(wù)中,能夠生成與視覺組件相關(guān)的詳細(xì)討論,并提出以特定目標(biāo)為導(dǎo)向的行動(dòng)計(jì)劃。此外,該模型還能通過功能推斷來解釋屏幕的整體目的,顯示出在理解和生成自然語言指令方面的高級(jí)能力。

蘋果在相關(guān)論文中表示,與其他MLLMs模型相比,F(xiàn)erret-UI在理解和解析移動(dòng)應(yīng)用界面方面更為優(yōu)秀,甚至在多個(gè)基礎(chǔ)UI任務(wù)上超越了現(xiàn)有的GPT-4V模型。這一創(chuàng)新不僅有望提升蘋果設(shè)備的用戶體驗(yàn),還可能對(duì)整個(gè)移動(dòng)應(yīng)用生態(tài)產(chǎn)生深遠(yuǎn)影響。

行業(yè)專家和分析師對(duì)Ferret-UI的發(fā)布給予了高度評(píng)價(jià)。他們認(rèn)為,這一模型的成功應(yīng)用將推動(dòng)多模態(tài)大語言模型在移動(dòng)應(yīng)用領(lǐng)域的發(fā)展,為未來的智能設(shè)備帶來更加智能、便捷的用戶交互體驗(yàn)。

雖然Ferret-UI的發(fā)布為人工智能領(lǐng)域帶來了新的突破,但關(guān)于其在實(shí)際應(yīng)用中的表現(xiàn)仍需要進(jìn)一步觀察。未來,我們期待看到更多關(guān)于Ferret-UI在實(shí)際場(chǎng)景中的應(yīng)用案例和效果評(píng)估,以進(jìn)一步了解其優(yōu)勢(shì)和局限性。

總之,蘋果推出的Ferret-UI多模態(tài)大語言模型,為理解和解析移動(dòng)應(yīng)用界面提供了新的解決方案,有望為用戶帶來更加智能、便捷的使用體驗(yàn)。這一創(chuàng)新不僅展示了蘋果在人工智能領(lǐng)域的領(lǐng)先地位,也為整個(gè)行業(yè)的發(fā)展提供了新的思路和方向。

原創(chuàng)文章,作者:野游栗,如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.2079x.cn/article/645608.html

野游栗的頭像野游栗認(rèn)證作者

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評(píng)論