RVC项目地址:https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
如果github加载不进去的话,也可关注软件作者“花儿不哭”大佬的B站账号,获取整合包。
请注意:本教程仅在30系、40系与50系显卡进行过可行性研究,其他型号显卡暂不确定
效果如上,换不同的数据集就可以制作不同的语音模型
下载RVC变声器完整包
点击Releases下载最新完整包
选择一个自己常用的网盘下载即可
根据自己电脑显卡类型选择一个对应的版本下载即可,不需要全部下载哦~
安装CUDA
进入NVDIA官网下载CUDA:https://developer.nvidia.com/cuda-toolkit
点击Download Now,选择系统版本(此处选择Windows)
下载完成后双击安装包
选择默认即可,安装过程中会使用临时解压路径(后面系统会自动删掉)。
系统检查完成后点击同意并继续
选择精简,这里建议默认安装,也可手动安装,但是要记得自己安装的位置,因为后面需要配置系统环境变量。
在计算机上点右键,打开属性->高级系统设置->环境变量,可以看到安装后,自动默认在系统中配置好 CUDA_PATH 和 CUDA_PATH_V11_7 环境变量(版本号对应用户所下载的版本号):
安装完毕在命令行输入 nvcc --version,可以看到我安装的是11.7。至此,CUDA的安装过程结束。
语音模型训练
解压RVC1006Nvidia后,双击打开go-web.bat,等待一会儿,会自动打开网站。(不要关闭命令行界面)
点击“训练”标签,输入模型的名字及语音的路径,点击“一键训练”,然后耐心等待。(具体的参数根据电脑性能、对语音模型效果的要求进行设置即可)(根据显卡性能、训练语音的数量,训练时长会有差异,二三十分钟的样子)
弹出这两行命令,说明语音模型训练完成。
语音模型推理
选择“模型推理”标签,设置刚才训练的语音模型,根据效果调整“变调”(如果参考音频使用了汉克的声音,要转成康纳的声音,推荐设置为“18”左右,效果最像)。
因为是变声器,所以不是其他那种语音转文字,需要输入一个参考语音(这里用了汉克的一句台词)。
全部设置好后,点击“转换”,右下角可以试听及下载生成的语音,效果还是不错的。