做了一个自然语音生成的 AI 模型，大家提点意见

发现 ----- 2023-10-28 16:30:26

自己做了一个语音生成的网站，www.zideai.com不是普通的文字转语音，支持克隆声线，并且生成出来的是自然语音，就是没有机械感。语音模型是自己写的，自己训练的和大模型结合做了个 Demo ，感觉这种交互模态不错，起码很自然。演示视频 https://www.bilibili.com/video/BV1tg4y1d7Ee/网站上也可以体验下，但部署的 GPU 有限，有可能进不去。用的 webrtc 直连 GPU ，延迟在 3s 左右，后面再优化语音模型可以做到对话零延迟。优势：1. 接近于真人的自然发声，包括停顿，韵律等。2. 可以用一段 3s 的语音克隆声线，视频里有展示。3. 全中文数据训练的，所以说话没有老外的感觉。4. 模型可以支持多语言，就是用日语的声音生成中文的语音（暂时还没训练）。缺点：1. 生成可能还不太稳定，声线容易跑偏。2. 很耗 GPU ，是传统语音生成的很多倍。后续：训练成本太高了，一个人做吃不消。。。不知道有没有前景，可以的话出一些硬件。比如智能音箱？和手办对话？大家给点意见。

关键词:

点赞 0 评论(0)

未登录,登录后可发布评论登录

做了一个自然语音生成的 AI 模型，大家提点意见

使用说明