30秒就能完美復刻你的聲音，這就是當今最強的中文AI語音克隆。

閏木 2024-12-10

展開全文

中文，在AI世界，好像突然一夜崛起了。

一直以來，AI繪圖和AI聲音，都有類似的痛點：

無法直出中文海報，以及克隆的中文聲音幾乎沒法聽。

而前者，隨著上周的即夢v2.1，得到了很好的解決。后者，過往有N多產(chǎn)品試圖去解決，但是解決的都很差。

閉源的有11labs，英文強到爆炸，中文幾乎沒法聽總是一股子大佐味。開源的，有F5、GPT-sovits、ChatTTS等等，但是不僅本地部署使用困難，出來的情緒說實話，也不咋地。

而這個周末，中文的語音克隆痛點，我發(fā)現(xiàn)，被解決了。

幸福來的如此突然。

我直接給大家聽一段我用克隆的AI唐國強老師，念滿江紅的語音。

震撼的我頭皮發(fā)麻。

玩了將近2年的AI聲音了，我也是第一次見，能用中文念詩，念的如此情緒飽滿的AI聲音。

而這，僅僅只需要，30秒的音頻素材就可以。

給我30秒，我就可以，偷走你的聲音。

這個AI語音，來自MiniMax的海螺AI。

嗯，就是那個把人物情緒表演拉滿，在海外AI視頻圈大殺特殺的海螺AI。

周末我打開海螺AI，準備跑幾個case視頻的時候，意外的發(fā)現(xiàn)，他們悄悄的居然在海外版上線了Audio模塊。

今年1月我就寫過一篇海螺AI聲音克隆的文章，但是那時候，只能在AI助手上，克隆你自己。

而現(xiàn)在，可以克隆任何人了。

在火速體驗完以后，我終于可以說：

這就是當今最強的，AI中文語音克隆，沒有之一。

一周時間，AI繪圖和AI聲音，中文世界兩開花。

這兩年，你知道我們是怎么過來的嗎。

突然有點淚目，兄弟們，過年了，真的。

海螺AI Audio網(wǎng)址在此：https://www./audio

最頂上左邊的就是Audio，剛剛新上的聲音功能，最右邊那個就是之前爆火的Video。

最爽的是，目前免費，不要錢。

海螺AI的Audio用起來也非常的簡單，最左邊的側(cè)邊欄，分為兩個tab。

第一個是Text to Speech（TTS），也就是你克隆完的聲音模型可以在這個地方進行文字生成音頻了。

第二個就是Voices，可以在里面進行聲音的克隆。

我做個case，給大家詳細演示一下。

我們先進入到Voices頁面。

直接點那個“創(chuàng)建您的聲音克隆”按鈕，目前每個人可以免費創(chuàng)建3個聲音。

你可以上傳語音，也可以直接錄音。

上傳的語音最少上傳10s的音頻片段就可以克隆了，不過這個樣本其實不是特別夠，所以我一般推薦音頻素材最好在30s左右，當然你也可以更長，不過一般不需要超過5分鐘。

這里我直接去B站，扒了一段唐國強老師在《三國演義》里面的朗誦片段。

扒出來的聲音素材是這樣的，你們可以聽一下。

情緒起伏很大，抑揚頓挫拉滿，非常完美的原始素材。

直接上傳到海螺AI里面去。

有個降噪選項，可選可不選，如果你的素材比較純凈干凈，可以不用。開的話可以幫你把一些背景音什么的都剔除掉。

最后需要選一下原始素材的語言，海螺AI支持12種語言，分別是：

中文、粵語、英語、韓語、日語、印尼語、西語、葡語、法語、意大利語、俄語、德語。

你的原始素材的語言是什么樣的，就選什么語言，克隆出來的聲音模型就會得到最好的效果，比如我上傳的這個唐國強老師的素材是中文的，就選中文就行。

很快，大概只要幾十秒的時間，唐國強老師的聲音，就克隆好了。

回到TTS界面。

點擊此位置，就可以切換到剛剛克隆完的唐國強老師的聲音模型。

我們直接，讓唐國強老師，來念一首李白的《將進酒》吧。

這首詩我太喜歡了，《長安三萬里》李白那一段上天入地，駕鶴登仙的演繹，更是將這首詩在我心中的地位，推向了最巔峰。

我們直接把《將進酒》的最后一段扔進去。

“主人何為言少錢，徑須沽取對君酌。五花馬，千金裘，呼兒將出換美酒，與爾同銷萬古愁?！?/strong>

海螺有個非常牛逼的點是，可以支持切換情緒。

目前有六種情緒：開心、生氣、悲傷、驚訝、恐懼、厭惡。

《將進酒》的最后一段，在我的認知里，雖然一種憤慨，有一種激昂，但是底層情緒，確是悲涼的。

我只要一瞬，卻也要讓這世間，看到我這一瞬的光輝。

所以，在海螺AI的情感選擇上，我選了悲傷。

點擊生成，幾秒鐘的時間，一段語音，就出現(xiàn)在了你的面前。

為了更加形象的展示，我把這段音頻做了個照片驅(qū)動對口型，視頻看起來更直觀一些。

又比如，我們可以再克隆一個林黛玉的聲音。

讓她來催一催鮮蝦包。

這聲音，直接人麻了。

林黛玉的聲音和情緒，都被還原到了極致。

而這句話，如果讓11labs克隆林黛玉的聲音來念呢，我給你們聽一下，有多么的鬼畜。

這就是我在文章開頭，說的一股子大佐味。

不是說11labs不好，11labs一直以來是世界上公認的最強的AI聲音產(chǎn)品，但是在中文表現(xiàn)上，真的是沒法用的狀態(tài)。

而這一次，海螺AI挺身而出，終于，補足了中文領域幾乎是空白的短板，把中文的聲音克隆的音色相似度和情緒，推上了巔峰。

成功率也極高，我想說的是，我上面所有的case，全部是一遍直出，沒有抽過一次卡，這點，真的難能可貴。

再給大家看一個影視颶風TIM的例子。

影視颶風是我最喜歡以及最崇拜的頻道，沒有之一。相信看過影視颶風的觀眾也都無數(shù)次聽過TIM那句：

“Hello大家好，我是TIM，歡迎收看影視颶風?！?/strong>

而這一次，我們讓AI來說這句話，讓大家聽聽，海螺AI的復刻有多么的強。

注意，為了避免擬合，所以我在上傳到海螺AI的30秒TIM的素材里，是沒有這句開場白的，都是他在聊一些別的東西。

AI直出如下，讓李四維化身TIM：

跟我記憶中已經(jīng)聽過無數(shù)次的TIM的開場白，沒有任何區(qū)別。

這就是現(xiàn)在海螺AI，能達到的程度。

這就是現(xiàn)在，最強的AI中文聲音克隆，沒有之一。

作為一個見證了這兩年AI發(fā)展的親歷者，這一周的感受格外強烈。

從即夢讓中文海報一夜之間'通關'，到海螺AI讓中文語音克隆達到了前所未有的高度，我仿佛看到了中文AI能力的爆發(fā)時刻。

想想兩年前，我們還在為中文大模型和國際巨頭的差距而焦慮。

那時的AI世界，幾乎是英語的獨角戲。

中文的存在感，就像是一個可有可無的配角。

但現(xiàn)在，這個局面正在被改寫。

當我們能用AI輕松制作出中文海報，當唐國強老師的聲音能被完美克隆，當林黛玉的語氣都能被精準還原。

也許，這就是屬于中文世界的AI時代的序章。

而這一切，才剛剛開始。

>/ 作者：卡茲克

本站是提供個人知識管理的網(wǎng)絡存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：閏木 > 《AI人工智能》

舉報/認領

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

閏木

關注對話

TA的最新館藏

[轉(zhuǎn)] 低截獲概率雷達實例：相位編碼雷達
一文了解無人機組成！
[轉(zhuǎn)] 媽媽住院陪護了3天，我突然想明白了后30年的人生問題
通信的調(diào)制技術
可保存編輯！一組超高清世界地形圖
“最近微信很火的一段話，照著抄別客氣”

喜歡該文的人也喜歡更多

熱門閱讀換一換

2020国产成人精品视频,性做久久久久久久久,亚洲国产成人久久综合一区,亚洲影院天堂中文av色

30秒就能完美復刻你的聲音，這就是當今最強的中文AI語音克隆。

30秒就能完美復刻你的聲音，這就是當今最強的中文AI語音克隆。