【教程】AI语音模型训练(RVC变声器)

【教程】AI语音模型训练(RVC变声器)

RVC项目通过检索式语音转换技术,实现个性化语音模型训练与推理。其核心方法是利用深度学习模型,以用户提供的语音数据为基础,生成具有特定音色和风格的语音。此技术价值在于赋能内容创作、虚拟人交互等领域,提供高度定制化的语音体验。 创新之处在于其开源的WebUI界面,简化了复杂的技术操作,使得普通用户也能轻松训练和使用语音模型。局限性主要体现在对显卡性能有较高要求(尤其推荐30系及以上),且模型训练效果受数据质量与数量影响较大。 后续方向可探索更广泛的硬件兼容性,优化训练效率,并深入研究情感表达的迁移,以实现更自然、更富有人情味的语音合成。

 次点击
18 分钟阅读

RVC项目地址:https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI

如果github加载不进去的话,也可关注软件作者“花儿不哭”大佬的B站账号,获取整合包。

请注意:本教程仅在30系、40系与50系显卡进行过可行性研究,其他型号显卡暂不确定

效果如上,换不同的数据集就可以制作不同的语音模型

下载RVC变声器完整包

点击Releases下载最新完整包

选择一个自己常用的网盘下载即可

根据自己电脑显卡类型选择一个对应的版本下载即可,不需要全部下载哦~

安装CUDA

进入NVDIA官网下载CUDA:https://developer.nvidia.com/cuda-toolkit

点击Download Now,选择系统版本(此处选择Windows)

下载完成后双击安装包

选择默认即可,安装过程中会使用临时解压路径(后面系统会自动删掉)。

系统检查完成后点击同意并继续

选择精简,这里建议默认安装,也可手动安装,但是要记得自己安装的位置,因为后面需要配置系统环境变量。

在计算机上点右键,打开属性->高级系统设置->环境变量,可以看到安装后,自动默认在系统中配置好 CUDA_PATH 和 CUDA_PATH_V11_7 环境变量(版本号对应用户所下载的版本号):

安装完毕在命令行输入 nvcc --version,可以看到我安装的是11.7。至此,CUDA的安装过程结束。

语音模型训练

解压RVC1006Nvidia后,双击打开go-web.bat,等待一会儿,会自动打开网站。(不要关闭命令行界面)

点击“训练”标签,输入模型的名字及语音的路径,点击“一键训练”,然后耐心等待。(具体的参数根据电脑性能、对语音模型效果的要求进行设置即可)(根据显卡性能、训练语音的数量,训练时长会有差异,二三十分钟的样子)

弹出这两行命令,说明语音模型训练完成。

语音模型推理

选择“模型推理”标签,设置刚才训练的语音模型,根据效果调整“变调”(如果参考音频使用了汉克的声音,要转成康纳的声音,推荐设置为“18”左右,效果最像)。

因为是变声器,所以不是其他那种语音转文字,需要输入一个参考语音(这里用了汉克的一句台词)。

全部设置好后,点击“转换”,右下角可以试听及下载生成的语音,效果还是不错的。

© 本文著作权归作者所有,未经许可不得转载使用。