
近日,Meta公司推出了多模態(tài)人工智能翻譯模型SeamlessM4T的“v2”架構(gòu),將其稱之為“Seamless Communication(無縫溝通)”模型,旨在讓對話翻譯更加自然和富有表現(xiàn)力。
“SeamlessExpressive”功能可以將說話者的語氣、音調(diào)、音量、情感色彩、語速和停頓等元素轉(zhuǎn)移到翻譯后的語音中。這一突破將為翻譯后的語音帶來更自然、更生動(dòng)的表現(xiàn),無論是在日常生活中還是在內(nèi)容制作中都將帶來極大的幫助。目前,“SeamlessExpressive”支持英語、西班牙語、德語、法語和中文等語言,但演示頁面缺少意大利語和中文。
另一個(gè)功能是“SeamlessStreaming”,可以在說話者仍在講話時(shí)開始翻譯,使其他人能夠更快地聽到翻譯。盡管仍存在不到兩秒鐘的短暫延遲,但這一功能至少可以在不必等到對方說完一個(gè)句子時(shí)就開始翻譯。Meta公司表示,最大的挑戰(zhàn)在于不同語言有不同的句子結(jié)構(gòu),因此他們必須開發(fā)一個(gè)專門的算法來研究部分音頻輸入,以決定是否有足夠的上下文開始生成翻譯輸出,或者是否需要繼續(xù)傾聽。
目前,Meta公司尚未透露公眾何時(shí)能夠使用這些新功能。但可以期待未來,Meta公司將把這些新功能集成到其智能眼鏡中,使其更加實(shí)用。隨著人工智能技術(shù)的不斷發(fā)展,相信未來我們將會(huì)看到更多突破性的翻譯技術(shù),為跨語言交流帶來更加順暢、自然的體驗(yàn)。
原創(chuàng)文章,作者:秋秋,如若轉(zhuǎn)載,請注明出處:http://m.2079x.cn/article/601894.html