亚洲精品7777,在线亚洲精品国产成人av剧情,好好日好好日,亚洲伊人丝袜精品久久,中文字幕人妻中文av不卡专区

> 通信 >

首創(chuàng)端云一體多情感模型火山語音發(fā)布全新自研語音合成模型

時間:2023-08-30 22:50:48       來源:技術聯(lián)盟

持續(xù)突破語音壁壘 火山語音團隊 2023-08-29 18:22 發(fā)表于北京


(相關資料圖)

火山引擎語音合成版本正式發(fā)布,能力再升級! 這是一段由真人和TTS組成的錄音,你能聽出哪部分是真人、哪部分是合成嗎?

真人VS PS2 ,火山語音團隊,7秒

(點擊下方閱讀原文按鈕,體驗更多合成效果?。?

版本采用火山語音團隊全新自研的語音合成模型 PortaSpeech 2 (下文簡稱:PS2),由當下流行的基礎模型架構(gòu) PortaSpeech原班人馬打造。為滿足各種業(yè)務場景和客戶需求,PS2 在第一代模型的基礎上,著重對 音質(zhì)韻律 多情感 、 端云能力 以及 克隆 等進行了大規(guī)模升級。經(jīng)評測, PS2合成效果與真人錄音相似度高達% ,其中 離線合成不僅支持多情感多風格,品質(zhì)也與在線合成呈現(xiàn)出高度一致性。

圖1:社區(qū)開源版 PortaSpeech

離線合成是指用戶在無網(wǎng)狀態(tài)下通過本地設備實時進行語音合成,具備實時性和隱私保護的優(yōu)勢,雖然這種離線方式消除了對網(wǎng)絡連接的依賴,用戶可以在任何時間、任何地點進行合成,但往往很難與在線合成相媲美。經(jīng)過深入的訓練與優(yōu)化, PS2 打破傳統(tǒng)的單一化低品質(zhì)的離線效果,具備了與在線合成的品質(zhì)并具有多情感、多風格能力, 讓用戶在無網(wǎng)、弱網(wǎng)狀態(tài)下也能夠享受到極致的語音合成體驗。

作為業(yè)界首個支持多情感多風格的端云一體模型,PS2的端云側(cè)同時兼具“三高”,即高品質(zhì)、高一致和高性能。 PS2端側(cè)能支持的情感、風格范圍非常廣泛,包括但不限于開心、悲傷、愉悅、抱歉、撒嬌、鼓勵等。

離線-多風格多情感 效果展示

開心 ,火山語音團隊,2秒

生氣 ,火山語音團隊,4秒

驚訝 ,火山語音團隊,2秒

綠茶 ,火山語音團隊,5秒

撒嬌 ,火山語音團隊,4秒

抱歉 ,火山語音團隊,3秒

此外基于端云一體的架構(gòu)設計和生成式蒸餾的訓推策略, PS2的端云側(cè)可同時兼具高質(zhì)量和音質(zhì)一致性,實現(xiàn)用戶在端側(cè)和云側(cè)之間切換時幾乎無感知; 并且從各維度充分考慮了用戶在不同場景下的需求,確保了端到云的效果在各個環(huán)節(jié)都能夠保持高度一致。實際使用中,會根據(jù)用戶的操作和網(wǎng)絡狀態(tài)選擇最優(yōu)模型進行語音合成,保障用戶在任何環(huán)境下都能享受到流暢的語音合成體驗。

文字

大約29分鐘,距離目的地 還有公里

(黑色為在線合成效果,藍色為離線效果)

在線切換效果展示

離在線切換效果 ,火山語音團隊,4秒

為了最大程度提升PS2在資源利用率和性能方面的成績,為用戶帶來更為穩(wěn)定和高效的使用體驗,火山語音團隊在訓練階段,針對不同模型特點采用 Int8 和 fp16 量化訓練,有效降低模型占用空間并為將來在多種硬件設備上提供高速推理能力奠定基礎;在推理階段,支持流式推理以降低處理首批數(shù)據(jù)時的延遲,提升系統(tǒng)響應速度和實時性,為用戶帶來更流暢的體驗。性能評測如下表:

硬件

A76(驍龍8155 )

[CPU/GPU]

A73 (驍龍660)

[CPU/GPU]

A53(rk3562 )

[NPU]

適用設備

車機系統(tǒng)

手機、VR眼鏡等

點讀筆等攜帶式設備

首包

100ms/100ms

100ms/100ms

300ms

整體鏈路 rtf

除了多重技術方向的創(chuàng)新升級之外,新晉的PS2模型在云端應用中也展現(xiàn)出了高品質(zhì)的語音合成能力以及效果。無論是與真人錄音相比較,還是與其他語音合成模型進行對比,PS2在各類場景中均有驚艷表現(xiàn)。任意文本內(nèi)容都可以穩(wěn)定合成出媲美真人錄音的效果,一起來感知PS2合成的魅力吧!

真人原音

真人原始錄音 ,火山語音團隊,9秒

合成效果

PS2 合成效果 ,火山語音團隊,9秒

火山語音團隊是如何實現(xiàn)如此驚艷的效果?

「模型結(jié)構(gòu)升級」模型結(jié)構(gòu)方面,PS2引入了全新的中間聲學表征、聲學模型和聲碼器。 相較于從前,PS2根據(jù)語音數(shù)據(jù)本身的特點,使用了更加精細的聲學特征HiFiSpec。可以極大保留訓練數(shù)據(jù)的音高、音頻等細節(jié)信息,提高模型在音質(zhì)和韻律的生成上限,使生成的語音音質(zhì)更加清亮、飽滿和穩(wěn)定。

具體來說,PS2的聲學模型根據(jù)HiFiSpec數(shù)據(jù)本身的特點,設計了兼具長短時依賴的編解碼器,引入了基于隱韻律表征預測的對抗生成式神經(jīng)網(wǎng)絡;同時使用蒙特卡洛采樣對隱韻律表征分布進行高精度和高效近似,允許其最大程度還原HiFiSpec的真實分布和多樣性,使合成的語音更接近自然狀態(tài)下的人類聲音。聲碼器方面,PS2優(yōu)化了音頻波形分布擬合目標,同時借助HiFiSpec的高表達性,重現(xiàn)極致音色和音質(zhì)效果。

圖2:火山語音新一代 PortaSpeech 2 模型框架圖

「訓推范式升級」訓推范式方面,PS2推翻了以往語音合成模型預訓練和微調(diào)的傳統(tǒng)范式,轉(zhuǎn)而采用新型自研教師-學生模型訓練范式。 為了更好地擬合真實的語音分布,PS2的教師模型會自動根據(jù)不同業(yè)務場景特性,動態(tài)結(jié)合類似GPT的上下文學習(In-context learning)和微調(diào)學習(finetuning)方法,快速完成新音色、場景和情感的訓練。

為了實現(xiàn)極致的模型性能和尺寸,PS2還進一步提出了一種名為“生成式蒸餾”的方案。 即完成訓練的教師模型會將它學到的語音數(shù)據(jù)分布通過分布形狀規(guī)整和長尾裁剪等方式,將最適用具體業(yè)務場景的語音分布傳授給學生模型,從而允許學生模型在極小的模型參數(shù)下,生成的語音質(zhì)量和韻律幾乎與教師模型無異。此外,學生模型還可以完美繼承教師模型的諸多能力,包括多語言和多情感等,可以勝任各種端上和端云混合場景。訓練數(shù)據(jù)方面,除了火山語音內(nèi)部錄制的大量精品數(shù)據(jù)以外,PS2還使用萬小時以上私有版權語音數(shù)據(jù),借助高效先進的模型架構(gòu)和訓推范式,可以在僅有少量數(shù)據(jù)下實現(xiàn)表現(xiàn)力、情感和音色的遷移,滿足絕大多數(shù)場景需求。

圖3:生成式“教師-學生”模型蒸餾

火山語音團隊正不斷將打磨多年的語音技術能力面向市場并通過火山引擎開放給外部企業(yè),已覆蓋汽車、金融、有聲閱讀、視頻配音等眾多應用場景,技術能力已成功應用到抖音、剪映、番茄小說等多款國民級產(chǎn)品上,并助力多家行業(yè)頭部企業(yè)實現(xiàn)AI語音能力的應用與拓展。未來火山語音還將不斷探索前沿科技與業(yè)務場景的高效結(jié)合,持續(xù)為用戶體驗和業(yè)務增長注入創(chuàng)新勢能,以實現(xiàn)更大價值。

—END—

關鍵詞:

精彩推送
首頁
頻道
底部
頂部