当前位置:站长百科 > 文章资讯> 实时热点> 阿里通义实验室语音生成大模型CosyVoice升级2.0版本

阿里通义实验室语音生成大模型CosyVoice升级2.0版本

2024-12-16 12:00:07来源:AIbase基地

阿里巴巴通义实验室语音团队宣布,其开源的语音生成大模型CosyVoice已升级至2.0版本,这一升级标志着语音生成技术在准确性、稳定性和自然体验方面的显著进步。CosyVoice2.0通过采用离线和流式一体化建模的语音生成大模型技术,实现了双向流式语音合成,首包合成延迟可达到150ms,显著提升了语音合成的响应速度。

最低的字错误率,尤其在合成绕口令、多音字、生僻字方面表现出色。此外,2.0版本在零样本语音生成和跨语言语音合成上保持了音色一致性,特别是跨语言语音合成能力相较于1.0版本有了明显提升。

CosyVoice2.0在合成音频的韵律、音质、情感匹配方面也有所增强,MOS评测分从5.4提升至5.53,接近某商业化语音合成大模型的评分。同时,2.0版本支持更多细粒度的情感控制和方言口音控制,为用户提供了更丰富的语言选择,包括粤语、四川话、郑州话、天津话和长沙话等主要方言,以及角色扮演功能,如模仿机器人、小猪佩奇的风格讲话等。

CosyVoice2.0的升级,不仅提升了语音合成的技术和体验,也进一步推动了开源社区的发展,鼓励更多的开发者参与到语音处理技术的创新和应用中来。

  • GitHub仓库:CosyVoice(https://github.com/FunAudioLLM/CosyVoice)查阅最新更新的CosyVoice2

  • 在线体验DEMO:https://www.modelscope.cn/studios/iic/CosyVoice2-0.5B

  • 开源代码:https://github.com/FunAudioLLM/CosyVoice

  • 开源模型:https://www.modelscope.cn/models/iic/CosyVoice2-0.5B


声明:《阿里通义实验室语音生成大模型CosyVoice升级2.0版本》内容参考资料AIbase基地,不代表本站观点或立场。如有关于作品内容、版权或其它问题,可与本站联系反馈