Gemini Live新功能實測上線:手機攝像頭秒變AI顧問

Gemini Live新功能實測上線:手機攝像頭秒變AI顧問

谷歌發(fā)言人亞歷克斯·約瑟夫今日向媒體證實,?Gemini Live人工智能實時視頻解析功能已正式上線?。用戶可通過智能手機攝像頭或屏幕畫面與AI互動,Gemini將實時分析視覺內(nèi)容并解答相關(guān)問題。該功能基于2024年5月發(fā)布的?Project Astra多模態(tài)項目?開發(fā),被視為對標OpenAI GPT-4o的重要落地成果。?
據(jù)官方描述,用戶開啟手機攝像頭后,Gemini Live可即時識別畫面中的物體并解釋其功能。例如對準咖啡機時,AI能指導(dǎo)操作步驟;掃描電器故障部件時,可提供維修建議。該功能支持在Pixel系列手機本地運行,強調(diào)低延遲與隱私保護,首批功能已向部分用戶開放測試。?
谷歌曾在2024年I/O大會上演示Project Astra原型:用手機掃描辦公室環(huán)境,AI準確識別電腦型號、提醒日程安排,并推算白板上的公式結(jié)果。此次Gemini Live的上線標志著該項目從技術(shù)展示轉(zhuǎn)為實際應(yīng)用,其多模態(tài)能力整合了圖像識別、語音交互與實時數(shù)據(jù)分析。?
目前Gemini Live暫未開放自由對話時長限制,重點聚焦特定場景的視覺問答。谷歌表示正在優(yōu)化復(fù)雜環(huán)境下的識別準確率,例如區(qū)分外觀相似的工業(yè)零件、解讀手寫潦草文字等挑戰(zhàn)。未來該功能將逐步擴展到更多安卓設(shè)備,并接入谷歌搜索數(shù)據(jù)庫強化知識儲備。

值得注意的是,Gemini Live的推出恰逢多模態(tài)AI競爭白熱化階段。OpenAI上月發(fā)布的GPT-4o同樣支持實時視覺交互,但尚未開放公眾測試。隨著兩大巨頭在“可感知現(xiàn)實世界的AI助手”賽道加速布局,消費級智能終端或?qū)⒂瓉硇乱惠喩壋薄?/p>

原創(chuàng)文章,作者:Google,如若轉(zhuǎn)載,請注明出處:http://m.2079x.cn/article/712015.html

Google的頭像Google認證作者

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評論