AI大猫语音保姆级教程

2024/03/02 技术 Furry AI 共 1304 字，约 4 分钟

你曾想象过，你最喜欢的furry角色会对你说“生日快乐”吗？我也总是在想，如果可以听到《家有大猫》中的林虎、李克劳和颜书齐对我送上晚安，那会是怎样的感觉？而现在，通过AI的力量，这一切都成为了可能。

项目介绍

感谢up主“花儿不哭”的项目，让我的设想变成了现实。三只大猫的语音模型都是通过游戏内语音训练而成的。下面就来介绍一下模型的使用方法。由于训练模型需要较高的电脑配置，这里就省略掉训练的步骤了，大家可以直接使用我训练好的三猫模型。如果你对训练过程感兴趣，或者也想自己制作其他的语音模型，可以在B站直接搜索项目名称 GPT-SoVITS ，就能找到详细的教程。心急的小伙伴可以直接跳转到文章末尾，获取模型下载方式。

首次部署

首先下载好模型压缩包与GPT-SoVITS整合包，全部解压缩后你就会得到两个文件夹。

注意：请保证解压后的GPT-SoVITS-beta文件夹的位置不包括任何中文目录。
例如，像 D:\下载\AI语音\GPT-SoVITS-beta 这样的目录是不可以的，进行后面的操作时会导致报错。可以将它改成这样 D:\Xiazai\AIyuyin\GPT-SoVITS-beta

接着将模型放入整合包文件夹，ckpt后缀的放到GPT_weights文件夹，pth后缀的放到SoVITS_weights文件夹。如下图所示：

ckpt模型位置

pth模型位置

这个操作是让程序能读取到模型，只有下载新模型的时候才需要这个操作。

推理（合成语音）

在整合包文件夹中，打开go-webui.bat，注意是批处理文件。弹出终端窗口后，稍等一会儿，浏览器就会自动打开页面。

推理页面

然后点击上方的1-GPT-SoVITS-TTS，再点下面的1C-推理。在两个模型列表里选择你需要的模型，注意两个地方的发音人要一致，比如选择林虎就两边都要是Linhu。然后点击刷新模型路径，再点开启推理WebUI。稍等一会儿，会自动打开一个新的网页。

在这里，我们需要上传参考音频。找到刚才解压的参考音频，选择相应的发音人，以及想要的语气。

参考音频

这里可以预先试听一下每个音频，然后将选好的音频直接拖进网页中的参考音频位置。然后打开文件夹中的“音频文本”，复制你刚才选的音频所对应的文本，粘贴到网页上参考音频的文本里面。

注意，这里的参考信息并不一定要用up提供的音频。如果你找到了更适合的语气也是可以用的。这里的参考音频决定了待会儿合成的音频的语气和速度。另外，右边的参考文本一定要正确地打好标点符号，特别是音频中有停顿的地方，一定要在文本中打上逗号或者句号。右边的语种设置，根据实际情况选择即可。完成后如图：

参考信息填写完成

接下来，在下面的需要合成的文本位置，填写你想要合成的语音内容。至于右边的语种选择，参考上方的文字说明即可。这里的文本也需要正确打标点，才能保证语音合成正常。然后点击合成语音，稍等一会儿，这里的等待时间因电脑配置不同而异。你也可以在终端里观察合成进度。

终端输出信息

当网页右边输出的语音处出现播放条时，就表示合成完成，点击播放按钮就可以试听语音了。觉得满意的话，点击右边三个点，就能下载音频。

以上就是合成语音的基本操作。

下载

扫码加入大猫频道，获取模型整合包，与up交流使用体验吧！家有大猫QQ频道，不止大猫！

频道二维码

文档信息

本文作者：Jesse Huang
本文链接：https://jessehyw.github.io/2024/03/02/catsvoice/
版权声明：署名-非商业性使用-禁止演绎（CC BY-NC-ND 4.0许可证）

搜索

文章目录