2020国产成人精品视频,性做久久久久久久久,亚洲国产成人久久综合一区,亚洲影院天堂中文av色

分享

聲音克?。耗壳白詈玫闹形穆曇艨寺」ぞ撸琖IN一鍵部署包 模型

 qdongh 2024-01-26 發(fā)布于北京
圖文參考:muhou.net 請低調(diào)白嫖

圖片

「幕后Muhou」專注于給后期愛好者挖掘一些好玩、實用的軟件和期資源。關(guān)注我們,妙不可言!


學習資料下載地址:請查看文章底部

之前都在用so-vits-svc,可惜停止維護了,上星期看到一個聽起來非常牛的AI聲音克隆項目。

圖片

整個周末都在研究,從實踐的結(jié)果來看,確實不錯。

用了這個項目之后,感覺之前推薦的兩個...突然不香了。

軟件使用比較復雜,找了個視頻大家參考使用:

需要下載以下內(nèi)容(已打包,底部下載):

新版整合包:so-vits-svc整合包,不用自己配置環(huán)境,大大節(jié)省了時間

UVR5:用來對音頻做人聲和背景拆分的軟件

圖片

圖片

項目介紹

這個項目的名字叫GPT-SoVITS,主頁的一句話介紹是:

1分鐘的語音數(shù)據(jù)也可以用來訓練一個優(yōu)秀的TTS(文本到語音)模型!

(少量樣本聲音克?。?/p>

據(jù)開發(fā)者及各大博主測驗,僅需提供 5 秒語音樣本即可體驗達到 80%~95% 像的聲音克隆。若提供 1 分鐘語音樣本可以逼近真人的效果,且訓練出高質(zhì)量的 TTS 模型!

目前已獲得 1.4k Star,看到很多人對其評價為目前最強中文語音克隆工具。

圖片

細說呢,具有以下特征:

  1. 零樣本文本到語音(TTS)

 輸入5秒的聲音樣本,即刻體驗文本到語音轉(zhuǎn)換。

  1. 少樣本TTS

 僅需1分鐘的訓練數(shù)據(jù)即可微調(diào)模型,提升聲音相似度和真實感。

  1. 跨語言支持

 支持與訓練數(shù)據(jù)集不同語言的推理,目前支持英語、日語和中文。

  1. WebUI工具

集成工具包括聲音伴奏分離、自動訓練集分割、中文自動語音識別(ASR)和文本標注,協(xié)助初學者創(chuàng)建訓練數(shù)據(jù)集和GPT-SoVITS模型。

開源項目能做到這四點已經(jīng)非常強了!

環(huán)境準備

Linux用戶可以看GitHub主頁。

這里主要介紹Windows系統(tǒng)的使用。

所以,你必須要有一個Win10+的操作系統(tǒng)。

另外配一張顯存8G+ 的英偉達顯卡。

軟件安裝

可以自己創(chuàng)建conda來安裝,也可以使用“預打包文件” 。

為了盡量降低難度,這里使用預打包文件。我會在文末提供!

獲取壓縮包GPT-SoVITS-beta.7z后,使用解壓軟件解壓即可。

預訓練模型

目前,預打包文件里還沒有包含所有模型,所以除了這個主體軟件外,還需要下載一些模型。

這些模型包括ASR模型,UVR5模型GPT-SoVITS 預訓練模型,我會一并放在網(wǎng)盤里。

項目環(huán)境依賴(使用完整包不需要看這里):

GPT-SoVITS 依賴于開源音視頻全能轉(zhuǎn)碼工具 FFmpeg。這個需要我們根據(jù)不同的系統(tǒng)進行手動安裝。

conda 環(huán)境安裝:

conda install ffmpeg

Ubuntu/Debian 用戶:

sudo apt install ffmpeg
sudo apt install libsox-dev
conda install -c conda-forge 'ffmpeg<7'

Mac 操作系統(tǒng)用戶:

brew install ffmpeg

Windows操作系統(tǒng)用戶:需手動下載ffmpeg.exe和ffprobe.exe并將其放置在 GPT-SoVITS 根目錄下。ffmpeg.exe下載地址:https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/ffmpeg.exeffprobe.exe下載地址:https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/ffprobe.exe

具體使用步驟:

上面的準備工作完成之后,把預訓練模型放在pretrained_models文件夾里面。

圖片

1、打開項目根目錄,將預置克隆音頻放置根目錄,然后雙擊go-webui.bat 運行項目。(可以發(fā)現(xiàn)它實際上執(zhí)行了Python腳本webui.py)

圖片

2、語音切割演示,將音頻文件路徑填入“音頻自動切分輸入路徑”下,點擊“開啟語音切割”

圖片

最終的切分結(jié)果會存放在項目Output下的slicer_opt目錄下(切分成了20份)

圖片

3、開始轉(zhuǎn)寫,將切分路徑填入“中文批量離線ASR工具”輸入路徑下,轉(zhuǎn)寫結(jié)果文件會在Output下的asr_opt目錄下生成

圖片

4、切換到GPT-SoVITS-TTS標簽,填寫模型名稱(角色名),再分別填入之前生成的切分目錄和轉(zhuǎn)寫目錄路徑,開啟文本獲取-開啟SSL提取-語義Token提?。ㄟ@3個步驟,一步一步來,一個完成之后再點擊下一個),最后開啟一鍵三連

圖片

然后轉(zhuǎn)到“微調(diào)訓練”,設置適合自己顯卡的顯存,“開啟SoVits訓練”,然后SoVits訓練結(jié)束后,再“開啟GPT訓練”

圖片

5、選擇“推理”標簽欄,設置GPT和SoVits的模型,勾選“是否開啟TTS推理WebUI”,等一會回自動跳轉(zhuǎn)到一個新的“推理界面”

圖片

6、填寫參考音頻信息(音頻文件、音頻文本、語種)、合成音頻信息(音頻文本,語音),點擊合成語音,最后就完成了語音轉(zhuǎn)換。

圖片

總結(jié)

大概在19年左右,就看過聲音克隆的項目,但是那個時候簡直是.... 制作難度非常高,效果沒法聽,噪聲和機械聲啊,假得很。

隨著時間的推移,AI的火爆。后來出現(xiàn)了很多語音類項目。

但是依然面臨各種各樣問題。

要么就是素材要求高,訓練難度大,穩(wěn)定性差,泛化差。

要么就是速度雖然很快,但是效果很拉胯。

整體來說,普通人想做出高質(zhì)量的聲音克隆還是不太容易。

根據(jù)GPT-SoVITS的作者介紹,他做這個項目初衷是,做一個開源的,普通人也可以玩轉(zhuǎn)的聲音克隆工具。

以我角度來看,他基本做到了。

這工具確實做得不錯,應該是我接觸到的工具里面,使用相對簡單,效果最好的聲音克隆工具。

這個項目可以跟一跟,已經(jīng)有比較大的實用價值了。

附帶一個工具,也是目前我感覺最好的提取軟件了,當然也附帶了模型包~


圖片

音樂去人聲真是一個高頻需求,之前總是在不經(jīng)意間碰到索要如何制作伴奏樂的問題。以前可以用 Audition 之類的勉強解決,現(xiàn)如今時代變了,人工智能&大數(shù)據(jù)讓這種需求變成了傻瓜式解決方案。
UltimateVocalRemoverGUI是一款開源的人聲分離軟件,采用了最先進的音源分離模型,以去除音頻文件中的人聲。該安裝程序大小有3.5G左右,適用于 Windows 10 或更高版本,也可以在Mac和Linux上安裝并運行,但是可能會有部分功能無法使用。圖片
UltimateVocalRemoverGUI對于電腦的配置有一定的要求,建議使用至少有 8GB 顯存的 nVidia GPU,只兼容 64 位平臺,轉(zhuǎn)換的時間取決于硬件的性能,程序所采用的模型是計算密集型的,請謹慎行事,并在程序運行時時刻關(guān)注你的電腦,確保它不會過熱。

圖片

圖片


--------收集不易先點 卡片 后 領(lǐng)取--------


每天給大家分享免費的資源。

如果你覺得有幫助

點下【在看】給小編加雞腿

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多