(資料圖片僅供參考)
科技日報記者 張景陽 通訊員 胡紅波
記者日前從內(nèi)蒙古大學(xué)計算機學(xué)院獲悉,該院劉瑞研究員所在科研團隊與日本大阪大學(xué)科學(xué)與工業(yè)研究所科研團隊合作在國際信號處理領(lǐng)域TOP期刊《IEEE/ACM音頻、語音和語言處理會刊》發(fā)表了“通過源濾波網(wǎng)絡(luò)將獨立于說話人的情感解耦以進行語音轉(zhuǎn)換”最新研究成果。
該研究依托內(nèi)蒙古大學(xué)蒙古文智能信息處理技術(shù)國家地方聯(lián)合工程研究中心、蒙古文信息處理技術(shù)自治區(qū)重點實驗室,并得到2022年內(nèi)蒙古大學(xué)駿馬計劃高層次人才引進項目的支持。
據(jù)介紹,情感語音轉(zhuǎn)換(VC)旨在將中性語音轉(zhuǎn)換為情感聲音,同時保留語言信息和說話者的身份??蒲袌F隊注意到,將情感特征與其他語音信息(例如內(nèi)容、說話者身份等)的解藕是實現(xiàn)高質(zhì)量轉(zhuǎn)換效果的關(guān)鍵。由于情感語音中聲學(xué)特征的解藕更加復(fù)雜,面向中性語音的特征解藕工作一直無法很好地開展。
科研團隊針對情感語音轉(zhuǎn)換的聲學(xué)特征解藕問題開展研究,提出了一種基于“源-濾波器”模型的情感語音轉(zhuǎn)換系統(tǒng)。具體來說,為了解決情感語音轉(zhuǎn)換的特征解藕問題,提出一種新穎的基于“源-濾波器”模型的情感VC模型(簡稱SFEVC),以從音色和音調(diào)特征中準確過濾說話人獨立的情感線索。SFEVC模型由多通道編碼器、情感獨立編碼器、預(yù)訓(xùn)練的說話人相關(guān)編碼器和相應(yīng)的解碼器組成。所有編碼器模塊都采用信息瓶頸自動編碼器。
此外,為了進一步提高各種情緒的轉(zhuǎn)化質(zhì)量,研究團隊還提出了基于二維VA空間的訓(xùn)練策略,實驗結(jié)果表明,SFEVC模型以及VA訓(xùn)練策略的表現(xiàn)均優(yōu)于所有基線系統(tǒng),并基于非平行數(shù)據(jù)在說話人無關(guān)的情感VC場景下實現(xiàn)了最優(yōu)性能。
關(guān)鍵詞: 語音轉(zhuǎn)換