梅開二度!網易易盾兩篇論文再度入選語音學術頂會INTERSPEECH 2023

8月20-24日,全球最大的綜合性語音領域的科技盛會——INTERSPEECH??2023在愛爾蘭都柏林舉辦。網易易盾兩篇學術論文被INTERSPEECH官方錄用,與世界頂級學術圈層共享學術研究成果。

  這是網易易盾AI團隊繼ICASSP后,論文再次被國際性頂級學術會議錄用。至此,網易易盾已解鎖全球兩大語音學術頂會論文全部錄用的成就。

梅開二度!網易易盾兩篇論文再度入選語音學術頂會INTERSPEECH 2023

  INTERSPEECH在國際上享有極高盛譽并具有廣泛的學術影響力,是由國際語音通訊協(xié)會(ISCA)創(chuàng)辦的旗艦級國際會議,也是全球最大的綜合性語音信號處理領域的科技盛會。它涵蓋了語音識別、語音合成、語音增強、自然語言處理等多個領域,每年都吸引了來自世界各地的數千名學者、工程師和企業(yè)家參與交流和展示。

  據INTERSPEECH??2023的統(tǒng)計數據,有上千人參與了會議,這些參會者來自全球數十個國家/地區(qū),其中包括中國、美國、日本、英國、法國、德國、印度等。會議共收到來自全球頂級實驗室、頂級大學、頂級研究團隊共3000篇以上論文投稿,網易易盾在INTERSPEECH??2023上有2篇論文入選,主題分別為《Enhancing the Unified Streaming and Non-streaming Model with??Contrastive Learning》、《Language-Routing Mixture of Experts for Multilingual and??Code-Switching Speech Recognition》。

  同時,易盾AI算法研究團隊也前往現場,與各研究人員會面,圍繞我們最新的語音技術進行問答和演示。這有助于全球語音學術界的研究水平,為研究人員圈層的學術交流提供參考。

  01.

  “Hello,賈維斯”?語音AI可以實現!

  ”你好,賈維斯?!?/p>

  “隨時為您效勞,先生?!?/p>

  電影《復仇者聯(lián)盟》中鋼鐵俠與其AI智能管家賈維斯,為我們展示出一個充滿科技設想的未來智能家庭場景,彼時,我們或許驚嘆于電影的超現實概念描繪,但放眼到今天,隨著人工智能(AI,Artificial??Intelligence)技術的不斷進步,科幻電影的設想照進現實并非遙不可及。

梅開二度!網易易盾兩篇論文再度入選語音學術頂會INTERSPEECH 2023

  在電影中,??鋼鐵俠與其AI智能助手賈維斯的溝通協(xié)作全部都是通過語音對話實現。因此,如果想要盡早將這樣的未來場景搬入現實,語音識別與人工智能技術的結合與研究,是關鍵中的關鍵。語音識別是指將人類的語音信號轉換為文本或命令的技術,它涉及到語音信號處理、自然語言處理等領域。語音識別技術可以讓我們通過語音來與電腦或手機等設備進行交互,提高了輸入和操作的效率和便捷性。例如,我們可以通過語音來搜索信息、發(fā)送短信、打電話、控制智能家居等。像“賈維斯”這樣的AI語音助手就是一種基于語音識別技術的智能服務,它可以理解用戶的語音指令,并根據用戶的需求提供相應的服務或信息。

  當然,一種技術的突破與創(chuàng)新,應用在個人生活場景中只是該技術價值中的一部分,將技術結合到企業(yè)服務方向的應用可以讓價值最大化。

  02.

  對比學習、語種轉碼與數字內容風控

  以網易易盾的兩篇論文為例,我們將解釋,語音AI技術是如何應用到數字內容風控服務場景并且為客戶服務提升價值。

  在易盾智能語音檢測業(yè)務場景中,存在實時(流式)檢測需求和離線(非流式)檢測需求。流式\非流式一體化模型是指一個模型可以同時滿足流式場景和非流式場景的識別需求,它降低了模型開發(fā),訓練和部署的成本。在實際的使用過程中模型性能仍然是易盾AI團隊關注的重點,大多數場景下一體化模型往往存在兩個性能差距,如下圖所示。

  (1)一體化模型的非流式識別性能優(yōu)于流式識別。

  (2)完全非流式模式訓練出來的純離線模型性能優(yōu)于一體化模型中的離線解碼模式。

梅開二度!網易易盾兩篇論文再度入選語音學術頂會INTERSPEECH 2023

  易盾AI團隊希望這兩個性能差距越小越好,一方面希望流式識別的效果能向非流式識別靠近,另一方面希望一體化模型的非流式識別和純離線模型相比沒有性能損失。如何進一步提升一體化模型性能是一個具有挑戰(zhàn)的問題。從模型表征的角度出發(fā),如果流式表征能夠向非流式靠攏,那么流式識別內容也會與非流式識別更相似,也就意味著流式識別的效果能向非流式識別靠近。

  基于這個動機,易盾AI算法團隊提出利用對比學習方法來縮小流式和非流式模式之間的內在表征差距,從而提升一體化模型的性能,如下圖所示。

梅開二度!網易易盾兩篇論文再度入選語音學術頂會INTERSPEECH 2023

  易盾AI算法團隊把每一幀的流式表示和非流式表示作為正樣本對,同時從非流式模式的其他幀隨機采樣多個負樣本,利用對比學習拉近正樣本之間的距離,同時加大負樣本之間的差異化。通過讓流式和非流式相互對比學習,同時完成兩種模式的訓練。

梅開二度!網易易盾兩篇論文再度入選語音學術頂會INTERSPEECH 2023

  研究在開源數據集和易盾業(yè)務場景驗證了算法的有效性,結果表明基于對比學習的一體化模型取得了顯著的性能提升。在業(yè)務數據上,該方法短期內幫助網易易盾取得了原本需要花一個季度數據積累才能獲得的效果提升。

  此外,在多語言語音場景中,廣泛存在多種語言中的單語語音和包含兩種或以上語言的語碼轉換語音。因此,多語種語音識別系統(tǒng)需要同時支持以上兩種場景語音的識別。為此易盾AI團隊設計了一種引入語種“路由”機制和混合專家系統(tǒng)(MOE)的混合語種識別方法,我們簡稱為LR-MoE。LR-MoE在混合專家模塊將不同語種交給相對應的“專家”模塊進行處理,在降低計算開銷的同時又提升了多語種和混合語種的識別效果。

梅開二度!網易易盾兩篇論文再度入選語音學術頂會INTERSPEECH 2023

  實際業(yè)務中,用戶在使用多語種語音識別系統(tǒng)時往往存在以下需求:

  1. 人工配置語種實現對特定語種的語音識別能力,如特定國家或地區(qū)的內容平臺;

  2. 未知語種信息時支持對任意語種語音的自動識別,如多語種內容平臺。

  結合實際業(yè)務需求和上述提出的方法,易盾AI團隊設計了基于LR-MoE的多語種語音識別架構,通過模型內置、靈活可配的幀級語種分類器,支持多語言多需求的智能語音內容檢測。

梅開二度!網易易盾兩篇論文再度入選語音學術頂會INTERSPEECH 2023

  上述架構能同時支持多語言單語和語碼轉換語音的識別,減少語種間的混淆,??在實際多語種業(yè)務中識別效果相對提升10%以上;并支持用戶主動配置語言和自適應識別兩種使用模式,賦能出海企業(yè)的智能語音內容風控。

  03.

  學術頂會??停阂锥蹵I實驗室

  網易易盾作為網易集團旗下一站式數字內容風控品牌,為面向數字化業(yè)務的客戶提供專業(yè)可靠的安全服務,涵蓋內容安全、業(yè)務安全、移動安全三大領域,全方位保障客戶業(yè)務合規(guī)、穩(wěn)健和安全運營。

  網易易盾很早就認識到技術的創(chuàng)新可以為產品和服務帶來呈幾何增長的價值提升,設立了網易易盾AI實驗室,此次入選的兩篇論文均出自于該團隊。作為網易易盾下設的始終走在人工智能研究前沿的技術團隊,易盾AI實驗室致力于圍繞精細化、輕量化、敏捷化打造全面嚴謹、安全可信的AI技術能力,不斷提升數字內容風控服務水平。在這之前,團隊曾獲得多項??AI 算法競賽冠軍及重要獎勵榮譽:

  2019年第一屆中國人工智能大賽 旗幟識別賽道最高級A級證書;

  2020年第二屆中國人工智能大賽 視頻深度偽造檢測賽道最高級A級證書;

  2021年第三屆中國人工智能大賽 視頻深度偽造檢測和音頻深度偽造檢測賽道兩項最高級A級證書;

  2021年中國人工智能產業(yè)發(fā)展聯(lián)盟“創(chuàng)新之星”、“創(chuàng)新人物”;

  2021年第十六屆全國人機語音通訊學術會議(NCMMSC2021)“長短視頻多語種多模態(tài)識別競賽”—漢語長短視頻直播語音關鍵詞(VKW)雙賽道冠軍;

  2021年獲得浙江省政府頒發(fā)的科學技術進步獎一等獎;

  2022年ICPR多模態(tài)字幕識別比賽(Multimodal Subtitle Recognition, 簡稱 MSR??競賽,國內首個多模態(tài)字幕識別大賽)賽道三“融合視覺和音頻的多模態(tài)字幕識別系統(tǒng)”冠軍;

  2023年,《Improving CTC-based ASR Models with Gated Interplayer??Collaboration(基于 CTC 的模型改進,實現更強的模型結構)》論文入選ICASSP。

  已成為頂級學術會議??偷木W易易盾AI實驗室,還將在包括語音AI在內的等各AI方向上深入研究,持續(xù)用技術為服務創(chuàng)造更大的空間。

  “賈維斯”在彼時2008年《鋼鐵俠》上映之時,看似觸不可及。此時回頭再看,也許“賈維斯”都顯得稍欠想象力??梢源_定的是,我們正處在科技大爆炸的前夕,5G、人工智能、物聯(lián)網、大數據、云計算等等這一切底層技術的研究都將在未來的數年內不斷誕生各種可以應用在生活中的產品和服務。

  在數字內容風控領域的語音AI研究和應用,網易易盾并不只追求快,我們更加希望我們的步伐是穩(wěn)健和堅定的,以及切實為客戶創(chuàng)造價值。

原創(chuàng)文章,作者:陳晨,如若轉載,請注明出處:http://m.2079x.cn/article/578334.html

陳晨陳晨管理團隊

相關推薦

發(fā)表回復

登錄后才能評論