冰楓論壇
標題:
MuseTalk V3 一鍵整合包
[打印本頁]
作者:
doudou10722
時間:
2025-5-21 17:48
標題:
MuseTalk V3 一鍵整合包
軟體名稱:MuseTalk
(不支持9:16格式)
軟體版本:V3
軟體類型:
一鍵整合包
(附影片)
軟體語言: 多語網譯
檔案大小:9.8GB
按順序(不然報錯)
1.測試重繪
2.生成
2025-5-21 17:47 上傳
下載附件
(156.65 KB)
2025-5-21 17:47 上傳
下載附件
(193.98 KB)
2025-5-21 17:47 上傳
下載附件
(145.96 KB)
2025-5-21 17:47 上傳
下載附件
(179.85 KB)
MuseTalk 是騰訊開發的一款AI數位人唇形同步工具,它能根據輸入的音訊自動調整虛擬人物的嘴部動作,讓數位人說話時的口型和聲音完美匹配。只需要上傳一段驅動音訊,和一段人物視頻,即可一鍵生成無限說自認說話視頻,適用各種自媒體口播和直播等領域!
MuseTalk 對於最低硬體要求,在 Windows 環境下使用配備 4GB 顯存的 NVIDIA GeForce RTX 3050 Ti 筆記本 GPU 測試了該系統。在 fp16 模式下,生成 8 秒的視頻大約需要 5 分鐘。
今天分享的MuseTalk V3版,同步官方最新的 MuseTalk V1.5版模型。與 1.0 版本相比,這個版本的模型有了顯著改進,提高了清晰度、身份一致性和精確的唇音同步。
應用領域:
短視頻製作:給動漫角色或真人換配音不用重拍
虛擬主播:讓AI主播的嘴型更自然
外語教學:展示標準發音口型
社交娛樂:讓照片唱歌說話做成搞笑視頻
使用教程:(建議N卡,顯存4G起。為了保證生成速度,建議顯存8G起。基於CUDA11.8)
上傳驅動音訊和參考視頻,設置相關參數(對應參數都有詳細說明),生成即可。
可以先調整參數,點測試重繪,預覽效果,再根據預覽調整參數,最後生成。
批量生成使用說明:
解壓一鍵包,依次打開 configs\inference,用記事本或者其他編輯器打開 batch.yaml
task_0:
video_path: "data/video/1.mp4"
audio_path: "data/audio/1.wav"
bbox_shift: -7
task_1:
video_path: "data/video/2.mp4"
audio_path: "data/audio/2.wav"
bbox_shift: -7
顯存低於8G不要使用批量,容易爆顯存
一個視頻對應一個task,以此類推,把所有的素材放到一個目錄裡,比如存放在data下的video和audio,一個存放視頻,一個存放音訊,注意視頻和音訊檔案名不要搞錯了。
bbox就是控制嘴巴張開幅度的。
配置完成後,保存。 一鍵啟動批量處理,等待完成
檔案下載
需要的請重新下載
下載 (進門左邊0521)
作者:
marcellin
時間:
2025-5-21 19:05
good
Thank you!
作者:
pig55570
時間:
2025-5-21 20:10
MuseTalk -- 是一款AI數位人唇形同步工具,它能根據輸入的音訊自動調整虛擬人物的嘴部動作,讓數位人說話時的口型和聲音完美匹配。這個軟体很實用,感謝大大分享 !!
歡迎光臨 冰楓論壇 (https://bingfong.com/)
Powered by 冰楓