騰訊出品！開源AI數(shù)字人框架！號稱可以不限時長

風(fēng)聲之家 2024-04-14 發(fā)布于江蘇

展開全文

原文地址鏈接：

https://mp.weixin.qq.com/s/auACBlvwpjl54fGeKsB3mA

騰訊出品！開源AI數(shù)字人框架！號稱可以不限時長

原創(chuàng) 零度火花 AI變革指南 2024-04-10 06:00 遼寧 1人聽過

如今數(shù)字媒體和虛擬現(xiàn)實(shí)技術(shù)飛速發(fā)展，對數(shù)字人的需求不斷增加！

今天，介紹一個開源創(chuàng)新的虛擬人視頻生成框架：MuseV

MuseV是由騰訊音樂娛樂的天琴實(shí)驗(yàn)室開源，MuseV專注于生成高質(zhì)量的虛擬人視頻和口型同步，能夠制作出具有高度一致性和自然表情的長視頻內(nèi)容。據(jù)說可以不限時長！

話不多說，我們先看看效果！下面是由圖片生成的數(shù)字人視頻

下面是生成效果

技術(shù)亮點(diǎn)

無限視頻長度：MuseV采用了視覺條件并行去噪方案，支持生成理論上無限長度的視頻。

多樣化生成方式：支持從圖像到視頻、文本到圖像到視頻、視頻到視頻的多種生成方式。

穩(wěn)定擴(kuò)散生態(tài)系統(tǒng)兼容：與基礎(chǔ)模型、lora、controlnet等穩(wěn)定擴(kuò)散生態(tài)系統(tǒng)兼容，增強(qiáng)了用戶的創(chuàng)作自由度。

多參考圖像技術(shù)：支持IPAdapter、ReferenceOnly、ReferenceNet、IPAdapterFaceID等多參考圖像技術(shù)，提升了視頻生成的質(zhì)量和多樣性1。

如何做到的？

MuseV利用了一種新穎的視覺條件并行去噪方案，支持無限長度的視頻生成。這意味著理論上，MuseV可以生成任意長度的視頻，而不受傳統(tǒng)技術(shù)限制。它還提供了在人類數(shù)據(jù)集上訓(xùn)練的檢查點(diǎn)，支持從圖像到視頻、文本到圖像到視頻、視頻到視頻的多樣化生成方式。

下面是模型結(jié)構(gòu)示意圖

下面是并行去噪算法示意圖

MuseTalk：實(shí)時高質(zhì)量口型同步模型

值得一提的是，MuseV團(tuán)隊(duì)最近發(fā)布了MuseTalk，這是一個實(shí)時高質(zhì)量的口型同步模型，可以與MuseV結(jié)合使用，提供完整的虛擬人生成解決方案。

如何使用？

準(zhǔn)備 Python 環(huán)境并安裝額外的包，如 diffusers、controlnet_aux、mmcm。然后按照下圖所示，自行安裝部署。

MuseV不僅僅是一個技術(shù)產(chǎn)品，它代表了虛擬人技術(shù)的未來方向。隨著技術(shù)的不斷進(jìn)步，我們有理由相信，MuseV將在娛樂、教育、會議等多個領(lǐng)域發(fā)揮重要作用，為我們帶來更加豐富和真實(shí)的虛擬體驗(yàn)。

項(xiàng)目地址：

https://github.com/TMElyralab/MuseV

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：風(fēng)聲之家 > 《ps》

舉報(bào)/認(rèn)領(lǐng)