冰楓論壇

標題: MuseTalk V3 一鍵整合包 [打印本頁]

作者: doudou10722 時間: 2025-5-21 17:48
標題: MuseTalk V3 一鍵整合包
軟體名稱:MuseTalk(不支持9:16格式)
軟體版本:V3
軟體類型:一鍵整合包(附影片)
軟體語言: 多語網譯
檔案大小:9.8GB

按順序(不然報錯)
1.測試重繪
2.生成

MuseTalk 是騰訊開發的一款AI數位人唇形同步工具，它能根據輸入的音訊自動調整虛擬人物的嘴部動作，讓數位人說話時的口型和聲音完美匹配。只需要上傳一段驅動音訊，和一段人物視頻，即可一鍵生成無限說自認說話視頻，適用各種自媒體口播和直播等領域！
MuseTalk 對於最低硬體要求，在 Windows 環境下使用配備 4GB 顯存的 NVIDIA GeForce RTX 3050 Ti 筆記本 GPU 測試了該系統。在 fp16 模式下，生成 8 秒的視頻大約需要 5 分鐘。

今天分享的MuseTalk V3版，同步官方最新的 MuseTalk V1.5版模型。與 1.0 版本相比，這個版本的模型有了顯著改進，提高了清晰度、身份一致性和精確的唇音同步。

應用領域：

短視頻製作:給動漫角色或真人換配音不用重拍
虛擬主播:讓AI主播的嘴型更自然
外語教學:展示標準發音口型
社交娛樂:讓照片唱歌說話做成搞笑視頻

使用教程：(建議N卡，顯存4G起。為了保證生成速度，建議顯存8G起。基於CUDA11.8)

上傳驅動音訊和參考視頻，設置相關參數（對應參數都有詳細說明），生成即可。
可以先調整參數，點測試重繪，預覽效果，再根據預覽調整參數，最後生成。

批量生成使用說明：
解壓一鍵包，依次打開 configs\inference，用記事本或者其他編輯器打開 batch.yaml

task_0:
video_path: "data/video/1.mp4"
audio_path: "data/audio/1.wav"
bbox_shift: -7
task_1:
video_path: "data/video/2.mp4"
audio_path: "data/audio/2.wav"
bbox_shift: -7
顯存低於8G不要使用批量，容易爆顯存

一個視頻對應一個task，以此類推，把所有的素材放到一個目錄裡，比如存放在data下的video和audio，一個存放視頻，一個存放音訊，注意視頻和音訊檔案名不要搞錯了。
bbox就是控制嘴巴張開幅度的。
配置完成後，保存。一鍵啟動批量處理，等待完成

檔案下載
需要的請重新下載
下載 (進門左邊0521)

作者: marcellin 時間: 2025-5-21 19:05
good
Thank you!

作者: pig55570 時間: 2025-5-21 20:10
MuseTalk -- 是一款AI數位人唇形同步工具，它能根據輸入的音訊自動調整虛擬人物的嘴部動作，讓數位人說話時的口型和聲音完美匹配。這個軟体很實用，感謝大大分享 !!

歡迎光臨冰楓論壇 (https://bingfong.com/)