OA系統圖書館網站地圖所長信箱English中國科學院
 
500彩票首頁機構概況科研成果研究隊伍國際交流科技合作研究生教育創新文化黨群園地科學傳播信息公開
  綜合新聞  
  圖片新聞  
  科研動態  
  學術活動  
  媒體報道  
您現在的位置:500彩票首頁 > 新聞動態 > 科研動態
在線端對端語音識別研究獲得進展
2020/08/10 | 作者:中科院语言声学与内容理解重点实验室 缪浩然 | 【 【打印】【關閉】

  端對端語音識別是一種利用深度學習模型將語音信號直接轉變爲文字的技術,其中基于注意力機制的模型可以達到較高的識別准確率。但是大多數注意力機制模型需要完整的語音信號,不適用于在線處理語音流。

  針對在線語音識別的應用場景,中科院語言聲學與內容理解重點實驗室的博士生缪浩然與其導師張鵬遠研究員、程高峰助理研究員等人針對主流注意力機制處理語音流的性能開展研究,提出了一種單調截斷語音流的在線注意力機制和一套高效實時的解碼算法。

  相關研究成果20204月在線發表于學術期刊 IEEE/ACM Transactions on Audio, Speech, and Language Processing

  研究人員指出,語音識別系統對各時刻語音信號注意力的權重分布呈指數衰減態勢,不利于處理長時語音流。他們還發現在線注意力模型訓練和推理之間存在差異,從而導致模型性能下降。基于上述問題,研究人員在設計單調截斷語音流的在線注意力模型時,優化了注意力權重指數衰減的特性,同時通過離散化注意力權重縮小訓練和推理之間的差異。

  基于公開的中英文語音識別數據集的實驗表明,單調截斷語音流的在線注意力模型在處理長時語音流時性能更加穩定。基于注意力機制和聯結主義時序分類准則的聯合在線解碼算法,在線語音識別系統的字錯誤率略高于離線系統,其解碼速度可以達到離線系統的1.5倍。

  這種單調截斷語音流的在線注意力機制和相關解碼算法爲端對端語音識別技術在大規模工業在線産品中的應用提供了可行方案。

  此項研究得到國家自然科學基金(No.11590774,11590772,11590770)的資助。

  

  在線端對端語音識別框架(圖/中科院聲學所)

  關鍵詞:

  端對端語音識別;在線語音識別;注意力機制

  參考文獻:

  MIAO Haoran, CHENG Gaofeng, ZHANG Pengyuan, YAN Yonghong, Online Hybrid CTC/Attention End-to-End Automatic Speech Recognition Architecture. IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 28, pp. 1452-1465, 2020, DOI: 10.1109/TASLP.2020.2987752.

  論文鏈接:

  https://ieeexplore.ieee.org/document/9072325

 
  相關新聞
Copyright 1996 - 500彩票 版权所有 备案序号:京ICP備16057196號 京公網安備110402500001號
地址:北京市海淀区北四环西路21号中國科學院声学研究所  邮编:100190
E-mail:ioa@mail.ioa.ac.cn