
谷歌發(fā)言人亞歷克斯·約瑟夫今日向媒體證實(shí),?Gemini Live人工智能實(shí)時(shí)視頻解析功能已正式上線?。用戶可通過智能手機(jī)攝像頭或屏幕畫面與AI互動,Gemini將實(shí)時(shí)分析視覺內(nèi)容并解答相關(guān)問題。該功能基于2024年5月發(fā)布的?Project Astra多模態(tài)項(xiàng)目?開發(fā),被視為對標(biāo)OpenAI GPT-4o的重要落地成果。?
據(jù)官方描述,用戶開啟手機(jī)攝像頭后,Gemini Live可即時(shí)識別畫面中的物體并解釋其功能。例如對準(zhǔn)咖啡機(jī)時(shí),AI能指導(dǎo)操作步驟;掃描電器故障部件時(shí),可提供維修建議。該功能支持在Pixel系列手機(jī)本地運(yùn)行,強(qiáng)調(diào)低延遲與隱私保護(hù),首批功能已向部分用戶開放測試。?
谷歌曾在2024年I/O大會上演示Project Astra原型:用手機(jī)掃描辦公室環(huán)境,AI準(zhǔn)確識別電腦型號、提醒日程安排,并推算白板上的公式結(jié)果。此次Gemini Live的上線標(biāo)志著該項(xiàng)目從技術(shù)展示轉(zhuǎn)為實(shí)際應(yīng)用,其多模態(tài)能力整合了圖像識別、語音交互與實(shí)時(shí)數(shù)據(jù)分析。?
目前Gemini Live暫未開放自由對話時(shí)長限制,重點(diǎn)聚焦特定場景的視覺問答。谷歌表示正在優(yōu)化復(fù)雜環(huán)境下的識別準(zhǔn)確率,例如區(qū)分外觀相似的工業(yè)零件、解讀手寫潦草文字等挑戰(zhàn)。未來該功能將逐步擴(kuò)展到更多安卓設(shè)備,并接入谷歌搜索數(shù)據(jù)庫強(qiáng)化知識儲備。
值得注意的是,Gemini Live的推出恰逢多模態(tài)AI競爭白熱化階段。OpenAI上月發(fā)布的GPT-4o同樣支持實(shí)時(shí)視覺交互,但尚未開放公眾測試。隨著兩大巨頭在“可感知現(xiàn)實(shí)世界的AI助手”賽道加速布局,消費(fèi)級智能終端或?qū)⒂瓉硇乱惠喩壋薄?/p>
原創(chuàng)文章,作者:Google,如若轉(zhuǎn)載,請注明出處:http://m.2079x.cn/article/712015.html