
在人工智能領(lǐng)域,蘋果公司近日再次引領(lǐng)創(chuàng)新潮流,發(fā)布了名為Ferret-UI的多模態(tài)大語言模型。這一模型被設(shè)計為專門理解并解析移動應(yīng)用程序屏幕上的內(nèi)容,為智能手機的使用體驗帶來了革命性的提升。
據(jù)悉,傳統(tǒng)的AI大語言模型,如ChatGPT等,其訓(xùn)練材料多限于文本內(nèi)容。然而,隨著科技的進步和用戶需求的變化,多模態(tài)大語言模型(MLLMs)應(yīng)運而生,旨在理解包括圖像、視頻和音頻在內(nèi)的非文本內(nèi)容。不過,目前的多模態(tài)模型在理解移動應(yīng)用程序界面方面仍面臨諸多挑戰(zhàn),比如手機屏幕的寬高比與訓(xùn)練圖像不同,以及界面元素如圖標和按鈕相對較小等問題。
針對這些挑戰(zhàn),蘋果公司研發(fā)了Ferret-UI模型。該模型在Ferret的基礎(chǔ)上進行了創(chuàng)新,引入了“任意分辨率”技術(shù),使得模型能夠放大界面細節(jié),并增強視覺功能。此外,蘋果還精心收集了大量初級用戶界面任務(wù)的訓(xùn)練樣本,這些樣本都帶有區(qū)域注釋的指令,便于模型進行精確的引用和定位。
為進一步提升Ferret-UI的推理能力,蘋果公司還編制了高級任務(wù)數(shù)據(jù)集,包括詳細描述、感知/交互對話和功能推斷等任務(wù)。這些任務(wù)不僅考驗?zāi)P蛯缑嬖氐睦斫饽芰?,還考驗其生成自然語言指令的能力。
在測試中,F(xiàn)erret-UI表現(xiàn)出色,尤其在描述和交互對話任務(wù)中,能夠生成與視覺組件相關(guān)的詳細討論,并提出以特定目標為導(dǎo)向的行動計劃。此外,該模型還能通過功能推斷來解釋屏幕的整體目的,顯示出在理解和生成自然語言指令方面的高級能力。
蘋果在相關(guān)論文中表示,與其他MLLMs模型相比,F(xiàn)erret-UI在理解和解析移動應(yīng)用界面方面更為優(yōu)秀,甚至在多個基礎(chǔ)UI任務(wù)上超越了現(xiàn)有的GPT-4V模型。這一創(chuàng)新不僅有望提升蘋果設(shè)備的用戶體驗,還可能對整個移動應(yīng)用生態(tài)產(chǎn)生深遠影響。
行業(yè)專家和分析師對Ferret-UI的發(fā)布給予了高度評價。他們認為,這一模型的成功應(yīng)用將推動多模態(tài)大語言模型在移動應(yīng)用領(lǐng)域的發(fā)展,為未來的智能設(shè)備帶來更加智能、便捷的用戶交互體驗。
雖然Ferret-UI的發(fā)布為人工智能領(lǐng)域帶來了新的突破,但關(guān)于其在實際應(yīng)用中的表現(xiàn)仍需要進一步觀察。未來,我們期待看到更多關(guān)于Ferret-UI在實際場景中的應(yīng)用案例和效果評估,以進一步了解其優(yōu)勢和局限性。
總之,蘋果推出的Ferret-UI多模態(tài)大語言模型,為理解和解析移動應(yīng)用界面提供了新的解決方案,有望為用戶帶來更加智能、便捷的使用體驗。這一創(chuàng)新不僅展示了蘋果在人工智能領(lǐng)域的領(lǐng)先地位,也為整個行業(yè)的發(fā)展提供了新的思路和方向。
原創(chuàng)文章,作者:野游栗,如若轉(zhuǎn)載,請注明出處:http://m.2079x.cn/article/645608.html