|
 
- UID
- 469567
- 帖子
- 6123
- 主題
- 6120
- 精華
- 0
- 積分
- 6140
- 楓幣
- 39
- 威望
- 6131
- 存款
- 0
- 贊助金額
- 0
- 推廣
- 0
- GP
- 0
- 閱讀權限
- 90
- 在線時間
- 182 小時
- 註冊時間
- 2024-12-17
- 最後登入
- 2025-11-5
|
|
軟體名稱:Cosy Voice (目的就是克隆某人的聲音 完整的套用在任意的文本上)
軟體版本:2.0 測試無誤 完整版
軟體語言:繁、簡
檔案大小:21GB
CosyVoice是阿里巴巴通義實驗室語音團隊於今年7月份開源的語音生成大模型,依托大模型技朮,
實現自然流暢的語音生成體驗。與傳統語音生成技朮相比,CosyVoice具有韻律自然、音色逼真等特點。
自開源以來,CosyVoice憑借高品質的多語言語音生成、零樣本語音生成、跨語言語音生成、
富文本和自然語言的細粒度控制能力獲得了廣大社區開發者們的喜愛和支持。
如今,CosyVoice迎來全面升級,我們將發布CosyVoice2.0版本,提供更准、更穩、更快、 更好的語音生成能力。
超低延遲:CosyVoice 2.0提出了離線和流式一體化建模的語音生成大模型技朮,支持雙向流式語音合成,
在基本不損失效果的情況下首包合成延遲可以達到150ms。
高准確度:CosyVoice 2.0合成音頻的發音錯誤相比於CosyVoice 1.0相對下降30%~50%,
在Seed-TTS測試集的hard測試集上取得當前最低的字錯誤率。合成繞口令、多音字、生僻字上具有明顯的提升。
強穩定性:CosyVoice 2.0在零樣本語音生成和跨語言語音合成上能夠出色地保證音色一致性,
特別是跨語言語音合成相比於1.0版本具有明顯提升。
自然體驗:CosyVoice 2.0合成音頻的韻律、音質、情感匹配相比於1.0具有明顯提升。
MOS評測分從5.4提升到5.53(相同評測某商業化語音合成大模型為5.52)。同時,
CosyVoice 2.0對於指令可控的音頻生成也進行了升級,支持更多細粒度的情感控制,以及方言口音控制。
下載 (進門左下0202)
|
|