![]() 「幕后Muhou」專注于給后期愛好者挖掘一些好玩、實用的軟件和期資源。關(guān)注我們,妙不可言! 學習資料下載地址:請查看文章底部 之前都在用so-vits-svc,可惜停止維護了,上星期看到一個聽起來非常牛的AI聲音克隆項目。 整個周末都在研究,從實踐的結(jié)果來看,確實不錯。 用了這個項目之后,感覺之前推薦的兩個...突然不香了。 軟件使用比較復雜,找了個視頻大家參考使用: 需要下載以下內(nèi)容(已打包,底部下載): 新版整合包:so-vits-svc整合包,不用自己配置環(huán)境,大大節(jié)省了時間 UVR5:用來對音頻做人聲和背景拆分的軟件 ![]() 項目介紹這個項目的名字叫GPT-SoVITS,主頁的一句話介紹是:
據(jù)開發(fā)者及各大博主測驗,僅需提供 5 秒語音樣本即可體驗達到 80%~95% 像的聲音克隆。若提供 1 分鐘語音樣本可以逼近真人的效果,且訓練出高質(zhì)量的 TTS 模型! 目前已獲得 1.4k Star,看到很多人對其評價為目前最強中文語音克隆工具。 ![]() 細說呢,具有以下特征:
輸入5秒的聲音樣本,即刻體驗文本到語音轉(zhuǎn)換。
僅需1分鐘的訓練數(shù)據(jù)即可微調(diào)模型,提升聲音相似度和真實感。
支持與訓練數(shù)據(jù)集不同語言的推理,目前支持英語、日語和中文。
集成工具包括聲音伴奏分離、自動訓練集分割、中文自動語音識別(ASR)和文本標注,協(xié)助初學者創(chuàng)建訓練數(shù)據(jù)集和GPT-SoVITS模型。 開源項目能做到這四點已經(jīng)非常強了! 環(huán)境準備 Linux用戶可以看GitHub主頁。 這里主要介紹Windows系統(tǒng)的使用。 所以,你必須要有一個Win10+的操作系統(tǒng)。 另外配一張顯存8G+ 的英偉達顯卡。 軟件安裝 可以自己創(chuàng)建conda來安裝,也可以使用“預打包文件” 。 為了盡量降低難度,這里使用預打包文件。我會在文末提供! 獲取壓縮包GPT-SoVITS-beta.7z后,使用解壓軟件解壓即可。 預訓練模型 目前,預打包文件里還沒有包含所有模型,所以除了這個主體軟件外,還需要下載一些模型。 這些模型包括ASR模型,UVR5模型, GPT-SoVITS 預訓練模型,我會一并放在網(wǎng)盤里。 項目環(huán)境依賴(使用完整包不需要看這里):
conda 環(huán)境安裝: conda install ffmpeg Ubuntu/Debian 用戶:
Mac 操作系統(tǒng)用戶: brew install ffmpeg Windows操作系統(tǒng)用戶:需手動下載ffmpeg.exe和ffprobe.exe并將其放置在 GPT-SoVITS 根目錄下。ffmpeg.exe下載地址:https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/ffmpeg.exeffprobe.exe下載地址:https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/ffprobe.exe 具體使用步驟:上面的準備工作完成之后,把預訓練模型放在pretrained_models文件夾里面。 1、打開項目根目錄,將預置克隆音頻放置根目錄,然后雙擊 2、語音切割演示,將音頻文件路徑填入“音頻自動切分輸入路徑”下,點擊“開啟語音切割” 最終的切分結(jié)果會存放在項目Output下的slicer_opt目錄下(切分成了20份) 3、開始轉(zhuǎn)寫,將切分路徑填入“中文批量離線ASR工具”輸入路徑下,轉(zhuǎn)寫結(jié)果文件會在Output下的asr_opt目錄下生成 4、切換到GPT-SoVITS-TTS標簽,填寫模型名稱(角色名),再分別填入之前生成的切分目錄和轉(zhuǎn)寫目錄路徑,開啟文本獲取-開啟SSL提取-語義Token提?。ㄟ@3個步驟,一步一步來,一個完成之后再點擊下一個),最后開啟一鍵三連 然后轉(zhuǎn)到“微調(diào)訓練”,設置適合自己顯卡的顯存,“開啟SoVits訓練”,然后SoVits訓練結(jié)束后,再“開啟GPT訓練” 5、選擇“推理”標簽欄,設置GPT和SoVits的模型,勾選“是否開啟TTS推理WebUI”,等一會回自動跳轉(zhuǎn)到一個新的“推理界面” 6、填寫參考音頻信息(音頻文件、音頻文本、語種)、合成音頻信息(音頻文本,語音),點擊合成語音,最后就完成了語音轉(zhuǎn)換。 總結(jié)大概在19年左右,就看過聲音克隆的項目,但是那個時候簡直是.... 制作難度非常高,效果沒法聽,噪聲和機械聲啊,假得很。隨著時間的推移,AI的火爆。后來出現(xiàn)了很多語音類項目。 但是依然面臨各種各樣問題。 要么就是素材要求高,訓練難度大,穩(wěn)定性差,泛化差。 要么就是速度雖然很快,但是效果很拉胯。 整體來說,普通人想做出高質(zhì)量的聲音克隆還是不太容易。 根據(jù)GPT-SoVITS的作者介紹,他做這個項目初衷是,做一個開源的,普通人也可以玩轉(zhuǎn)的聲音克隆工具。 以我角度來看,他基本做到了。 這工具確實做得不錯,應該是我接觸到的工具里面,使用相對簡單,效果最好的聲音克隆工具。 這個項目可以跟一跟,已經(jīng)有比較大的實用價值了。 附帶一個工具,也是目前我感覺最好的提取軟件了,當然也附帶了模型包~ ![]() --------收集不易先點 卡片 后 領(lǐng)取-------- 每天給大家分享免費的資源。 如果你覺得有幫助 |
|
來自: qdongh > 《AI工具網(wǎng)站》