2020国产成人精品视频,性做久久久久久久久,亚洲国产成人久久综合一区,亚洲影院天堂中文av色

分享

MaskGCT

 東西二王 2024-12-11

2024-11-22 15:22·人工智能研究所

前期介紹過很多語音合成的模型,比如,微軟語音合成大模型,其模型隨著技術(shù)的不斷發(fā)展,模型說話的聲音也越來越像人類,雖然 seed-tts 可以進(jìn)行語音合成等功能,但是其模型并沒有開源,本期介紹的MaskGCT文本轉(zhuǎn)語音模型是一個(gè)開源的模型,不僅可以生成語音,還可以模仿任何人說話的聲音,且可以進(jìn)行語氣的轉(zhuǎn)換。

大規(guī)模的文本轉(zhuǎn)語音(TTS)系統(tǒng)通常被劃分為自回歸系統(tǒng)與非自回歸系統(tǒng)。自回歸系統(tǒng)雖隱式地對時(shí)長予以建模,然而在魯棒性層面呈現(xiàn)出一定的短板,且時(shí)長的可控性匱乏。非自回歸系統(tǒng)于訓(xùn)練期間,需要文本和語音之間的顯性對齊信息,并對語言單位(諸如音素)的時(shí)長進(jìn)行預(yù)測,此舉或許會折損其自然度。而 Masked Generative Code Transformer(MaskGCT),此乃一個(gè)全然非自回歸的 TTS 模型,它既無需文本和語音監(jiān)督之間的顯性對齊信息,也無需音素級時(shí)長預(yù)測。

MaskGCT 屬于一個(gè)兩階段模型:在第一階段,該模型憑借文本預(yù)測從語音自監(jiān)督學(xué)習(xí)(SSL)模型中萃取的語義標(biāo)記;在第二階段,模型對以這些語義標(biāo)記為條件的聲學(xué)標(biāo)記予以預(yù)測。MaskGCT 遵循掩碼和預(yù)測的學(xué)習(xí)范式。在訓(xùn)練進(jìn)程中,MaskGCT 會依據(jù)給定的條件和提示,學(xué)習(xí)預(yù)測被遮蔽的語義或聲學(xué)標(biāo)記。在推理過程里,該模型能夠以并行的方式生成指定長度的標(biāo)記。針對 10 萬小時(shí)的自然語音展開的實(shí)驗(yàn)表明,MaskGCT 在質(zhì)量、相似度以及可理解性等方面,皆勝于當(dāng)下最為先進(jìn)的零樣本 TTS 系統(tǒng)。

MaskGCT 由四個(gè)主要部分組成:

(1)語音語義表示編解碼器將語音轉(zhuǎn)換為語義標(biāo)記;

(2)文本到語義模型使用文本預(yù)測語義標(biāo)記并提示語義標(biāo)記;

(3)語義到聲學(xué)模型根據(jù)語義標(biāo)記預(yù)測聲學(xué)標(biāo)記;

(4)語音聲學(xué)編解碼器根據(jù)聲學(xué)標(biāo)記重建語音波形。

MaskGCT模型根據(jù)用戶提供的聲音與文本,識別輸入數(shù)據(jù)的語音語調(diào),通過輸入其他的文本,合成具有相同語音語調(diào)的聲音。

在很多自媒體創(chuàng)作中,很多配音都是合成的聲音,若是自己拿稿進(jìn)行配音,不僅需要重復(fù)調(diào)整,還需要花費(fèi)大量的時(shí)間與精力,而使用MaskGCT模型,就沒有這個(gè)擔(dān)憂,直接讓模型學(xué)習(xí)下自己的語音語調(diào),然后就可以一次性輸入自己的文案,讓模型進(jìn)行配音了,這樣就大大節(jié)省了人工配音的時(shí)間成本(更不需要一個(gè)專業(yè)的錄音設(shè)備)

MaskGCT模型不僅可以模仿說話者的聲音,也可以根據(jù)需要調(diào)整說話人的情緒,比如高興的,生氣等,這樣就可以輸入MaskGCT模型多段文案,然后控制每段文案的情緒,就可以得到完美的配音了。

當(dāng)然MaskGCT模型也可以針對原始語音進(jìn)行調(diào)整修改,可以直接修改原始語音的文案,讓MaskGCT模型生成其他的語音。更多使用場景可以到MaskGCT模型 GitHub 上面查看。而官方也放出了在線體驗(yàn)地址,可以進(jìn)行在線體驗(yàn)。

https://maskgct./
https://github.com/open-mmlab/Amphion/blob/main/models/tts/maskgct/README.md
https://voice./

    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多