在語音通訊中,如何在抑制背景噪聲的同時避免引入不自然的失真是一個重要的課題。目前基于深度學習的語音增強方法能夠有效減少背景噪聲成分,但是在噪聲失配條件下會引入較多不自然的殘差噪聲,對語音舒適度造成較大影響。
對此,中科院噪聲與振動重點實驗室研究生李安冬與其導師鄭成詩研究員等人提出了一種帶有殘差噪聲控制的語音增強方法用于語音通訊,在人爲保留較低背景噪聲的前提下,以噪聲抑制與語音失真最小化爲目標進行聯合優化,提高語音舒適度。
相關研究成果2020年4月在線發表于國際學術期刊 Applied Sciences 。
研究人員通過引入多個可調節參數推導出一種廣義損失函數。用不同參數組合,使得增強後的語音在這兩個目標間進行有效權衡。同時通過人爲引入較低的背景噪聲參與優化,能夠有效增強語音的主觀聽覺質量。
實驗結果表明,通過選擇合理的參數組合,可使增強後的語音在客觀指標與主觀評估結果上優于以往的處理結果。
許多常用的損失函數均可被視爲這種廣義損失函數的特殊情況並用上述方法進行優化。這種增強方法可應用于語音通信設備中的噪聲抑制與語音信息提取。
本研究得到了國家自然科學基金(No.61571435, 61801468,11974086)資助。

不同參數組合的客觀指標對比(圖/中科院聲學所)
關鍵詞:
廣義損失函數;殘差噪聲控制;噪聲整形;語音失真;深度學習
參考文獻:
LI Andong, PENG Renhua. ZHENG Chengshi, LI Xiaodong. A Supervised Speech Enhancement Approach with Residual Noise Control for Voice Communication. Applied Sciences, 2020, 10, 2894. DOI:10.3390/app10082894
論文鏈接:
https://www.mdpi.com/2076-3417/10/8/2894#cite