原文地址鏈接: https://mp.weixin.qq.com/s/auACBlvwpjl54fGeKsB3mA 騰訊出品!開源AI數(shù)字人框架!號稱可以不限時長 原創(chuàng) 零度火花 AI變革指南 2024-04-10 06:00 遼寧 1人聽過 如今數(shù)字媒體和虛擬現(xiàn)實(shí)技術(shù)飛速發(fā)展,對數(shù)字人的需求不斷增加! 今天,介紹一個開源創(chuàng)新的虛擬人視頻生成框架:MuseV MuseV是由騰訊音樂娛樂的天琴實(shí)驗(yàn)室開源,MuseV專注于生成高質(zhì)量的虛擬人視頻和口型同步,能夠制作出具有高度一致性和自然表情的長視頻內(nèi)容。據(jù)說可以不限時長! 話不多說,我們先看看效果!下面是由圖片生成的數(shù)字人視頻 下面是生成效果 下面是生成效果 技術(shù)亮點(diǎn) 無限視頻長度:MuseV采用了視覺條件并行去噪方案,支持生成理論上無限長度的視頻。 多樣化生成方式:支持從圖像到視頻、文本到圖像到視頻、視頻到視頻的多種生成方式。 穩(wěn)定擴(kuò)散生態(tài)系統(tǒng)兼容:與基礎(chǔ)模型、lora、controlnet等穩(wěn)定擴(kuò)散生態(tài)系統(tǒng)兼容,增強(qiáng)了用戶的創(chuàng)作自由度。 多參考圖像技術(shù):支持IPAdapter、ReferenceOnly、ReferenceNet、IPAdapterFaceID等多參考圖像技術(shù),提升了視頻生成的質(zhì)量和多樣性1。 如何做到的? MuseV利用了一種新穎的視覺條件并行去噪方案,支持無限長度的視頻生成。這意味著理論上,MuseV可以生成任意長度的視頻,而不受傳統(tǒng)技術(shù)限制。它還提供了在人類數(shù)據(jù)集上訓(xùn)練的檢查點(diǎn),支持從圖像到視頻、文本到圖像到視頻、視頻到視頻的多樣化生成方式。 下面是模型結(jié)構(gòu)示意圖 下面是并行去噪算法示意圖 MuseTalk:實(shí)時高質(zhì)量口型同步模型 值得一提的是,MuseV團(tuán)隊(duì)最近發(fā)布了MuseTalk,這是一個實(shí)時高質(zhì)量的口型同步模型,可以與MuseV結(jié)合使用,提供完整的虛擬人生成解決方案。 如何使用? 準(zhǔn)備 Python 環(huán)境并安裝額外的包,如 diffusers、controlnet_aux、mmcm。然后按照下圖所示,自行安裝部署。 MuseV不僅僅是一個技術(shù)產(chǎn)品,它代表了虛擬人技術(shù)的未來方向。隨著技術(shù)的不斷進(jìn)步,我們有理由相信,MuseV將在娛樂、教育、會議等多個領(lǐng)域發(fā)揮重要作用,為我們帶來更加豐富和真實(shí)的虛擬體驗(yàn)。 項(xiàng)目地址: https://github.com/TMElyralab/MuseV |
|