科技日報實習記者 孫明源
影視配音是一項對專業(yè)能力要求很高的工作。配音演員需要觀看、分析視頻中任務的表演,并用適當?shù)捻嵚桑ɡ缰匾簟⒄Z調(diào)和節(jié)奏)重新錄制每一句臺詞,讓配音和畫面同步,并且具備豐富的情感和前后一致性,目前的人工智能配音還不能勝任這種工作。然而,近日發(fā)表在機器學習和計算神經(jīng)科學領(lǐng)域頂級會議NeurIPS2021上的一項前沿研究表明,可以媲美專業(yè)配音演員的人工智能技術(shù)是有望實現(xiàn)的。
論文內(nèi)容表明,清華大學交叉信息研究院趙行研究組(MARS Lab)聯(lián)合字節(jié)跳動提出了神經(jīng)網(wǎng)絡配音器概念,旨在解決自動視頻配音任務。它能夠合成與給定視頻同步的高質(zhì)量語音,并利用視頻中的嘴部運動來控制生成語音的韻律,以達到語音和視頻同步的目的。此外,該工作還針對多說話人場景開發(fā)了基于圖像的說話人嵌入模塊,讓神經(jīng)網(wǎng)絡配音器能夠根據(jù)說話人的面部生成具有合理音色的語音。
“配音的主要應用場景有兩個。一是替換拍攝時錄制的對話,如拍攝場景下錄制的語音音質(zhì)不佳,又或者出于某種原因演員只是對了口型,聲音需要事后配上;二是對譯制片進行配音。例如,為了便于中國觀眾欣賞,將其他語言的視頻翻譯并配音為中文。我們主要關(guān)注的是第一個場景?!痹诮邮芸萍既請笥浾卟稍L時,論文的第一作者、清華大學交叉信息研究院博士生胡晨旭解釋說。
實驗中的定性和定量評估結(jié)果都說明,神經(jīng)網(wǎng)絡配音器可以通過視頻控制合成語音的韻律,并生成與視頻同步的高質(zhì)量語音?!安贿^,我們的技術(shù)還處于起步階段,模型需要在真實電影數(shù)據(jù)上進行訓練,也暫時還沒有開始中文配音應用?!焙啃裱a充說。
“我們的研究還在繼續(xù),請期待我們下一版本的模型?!焙啃裾f。