新京報(bào)貝殼財(cái)經(jīng)訊(記者羅亦丹)6月26日,科大訊飛語(yǔ)音合成技術(shù)全新升級(jí),一句話聲音復(fù)刻與超擬人合成兩大核心能力實(shí)現(xiàn)突破。
此次訊飛技術(shù)突破的關(guān)鍵,除了星火語(yǔ)音大模型底座的基礎(chǔ)和持續(xù)迭代,還構(gòu)建了一套三階段層次化語(yǔ)音建??蚣?。首先,通過(guò)星火底座大模型精確捕捉發(fā)音規(guī)律和韻律特征。其次,在音色恢復(fù)階段解耦并重構(gòu)聲學(xué)特征。最后,通過(guò)高精度聲碼器恢復(fù)高保真波形。
這套語(yǔ)音建??蚣芡黄屏苏Z(yǔ)義表征,采用mel VQ-AE模型結(jié)合語(yǔ)音自監(jiān)督預(yù)訓(xùn)練編碼器。這種結(jié)構(gòu)實(shí)現(xiàn)了發(fā)音內(nèi)容與音色特征的可控分離,也顯著提升了語(yǔ)義LLM的建模穩(wěn)定性。
只需一句話錄音,AI就能完整捕捉用戶喉腔共鳴、口音特點(diǎn)、氣息流轉(zhuǎn)等發(fā)音特征,精準(zhǔn)還原用戶的停頓習(xí)慣、情感起伏和呼吸節(jié)奏,達(dá)到真人難以區(qū)分的復(fù)刻效果。
在需要深入交流的場(chǎng)景里,僅有相似音色并不足夠。訊飛的超擬人合成技術(shù)此次進(jìn)階的重點(diǎn)是賦予AI聲音以“上下文情商”。面對(duì)多輪對(duì)話的復(fù)雜度,科大訊飛開發(fā)了上下文感知的語(yǔ)音生成系統(tǒng)。該系統(tǒng)融合歷史文本及對(duì)應(yīng)音頻特征,通過(guò)跨模態(tài)編碼器分析上下文,讓AI聲音能像真人一般敏銳響應(yīng)情緒轉(zhuǎn)變和話題轉(zhuǎn)換。在真人與AI聲音的對(duì)話測(cè)試中,隨著話題和情緒變化,合成聲音的語(yǔ)氣會(huì)實(shí)時(shí)調(diào)整,給出恰如其分的情感回應(yīng),整體自然度接近真人水平。
科大訊飛研究院院長(zhǎng)劉聰表示:“我們希望聲音不止于工具,更成為承載情感與個(gè)性的新維度,賦能更多場(chǎng)景行業(yè)、催生更多可能”。屬于AI聲音的多元化、情感化時(shí)代,正加速駛?cè)氍F(xiàn)實(shí)。
校對(duì) 穆祥桐