聲音克?。耗壳白詈玫闹形穆曇艨寺」ぞ撸琖IN一鍵部署包模型

qdongh 2024-01-26 發(fā)布于北京

展開全文

圖文參考：muhou.net 請低調(diào)白嫖

「幕后Muhou」專注于給后期愛好者挖掘一些好玩、實用的軟件和期資源。關(guān)注我們，妙不可言！

學習資料下載地址：請查看文章底部

之前都在用so-vits-svc，可惜停止維護了，上星期看到一個聽起來非常牛的AI聲音克隆項目。

整個周末都在研究，從實踐的結(jié)果來看，確實不錯。

用了這個項目之后，感覺之前推薦的兩個...突然不香了。

軟件使用比較復雜，找了個視頻大家參考使用：

需要下載以下內(nèi)容（已打包，底部下載）：

新版整合包：so-vits-svc整合包，不用自己配置環(huán)境，大大節(jié)省了時間

UVR5：用來對音頻做人聲和背景拆分的軟件

項目介紹

這個項目的名字叫GPT-SoVITS，主頁的一句話介紹是：

1分鐘的語音數(shù)據(jù)也可以用來訓練一個優(yōu)秀的TTS（文本到語音）模型！
（少量樣本聲音克?。?/p>

據(jù)開發(fā)者及各大博主測驗，僅需提供 5 秒語音樣本即可體驗達到 80%~95% 像的聲音克隆。若提供 1 分鐘語音樣本可以逼近真人的效果，且訓練出高質(zhì)量的 TTS 模型！

目前已獲得 1.4k Star，看到很多人對其評價為目前最強中文語音克隆工具。

細說呢，具有以下特征：

零樣本文本到語音（TTS）

輸入5秒的聲音樣本，即刻體驗文本到語音轉(zhuǎn)換。

少樣本TTS

僅需1分鐘的訓練數(shù)據(jù)即可微調(diào)模型，提升聲音相似度和真實感。

跨語言支持

支持與訓練數(shù)據(jù)集不同語言的推理，目前支持英語、日語和中文。

WebUI工具

集成工具包括聲音伴奏分離、自動訓練集分割、中文自動語音識別(ASR)和文本標注，協(xié)助初學者創(chuàng)建訓練數(shù)據(jù)集和GPT-SoVITS模型。

開源項目能做到這四點已經(jīng)非常強了！

環(huán)境準備

Linux用戶可以看GitHub主頁。

這里主要介紹Windows系統(tǒng)的使用。

所以，你必須要有一個Win10+的操作系統(tǒng)。

另外配一張顯存8G+ 的英偉達顯卡。

軟件安裝

可以自己創(chuàng)建conda來安裝，也可以使用“預打包文件” 。

為了盡量降低難度，這里使用預打包文件。我會在文末提供！

獲取壓縮包GPT-SoVITS-beta.7z后，使用解壓軟件解壓即可。

預訓練模型

目前，預打包文件里還沒有包含所有模型，所以除了這個主體軟件外，還需要下載一些模型。

這些模型包括ASR模型，UVR5模型, GPT-SoVITS 預訓練模型，我會一并放在網(wǎng)盤里。

項目環(huán)境依賴（使用完整包不需要看這里）：

GPT-SoVITS 依賴于開源音視頻全能轉(zhuǎn)碼工具 FFmpeg。這個需要我們根據(jù)不同的系統(tǒng)進行手動安裝。

conda 環(huán)境安裝：

conda install ffmpeg

Ubuntu/Debian 用戶:

sudo apt install ffmpeg
sudo apt install libsox-dev
conda install -c conda-forge 'ffmpeg<7'

Mac 操作系統(tǒng)用戶:

brew install ffmpeg

Windows操作系統(tǒng)用戶：需手動下載ffmpeg.exe和ffprobe.exe并將其放置在 GPT-SoVITS 根目錄下。ffmpeg.exe下載地址：https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/ffmpeg.exeffprobe.exe下載地址：https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/ffprobe.exe