AI大猫语音保姆级教程

2024/03/02 技术 Furry AI 共 1304 字,约 4 分钟

你曾想象过,你最喜欢的furry角色会对你说“生日快乐”吗?我也总是在想,如果可以听到《家有大猫》中的林虎、李克劳和颜书齐对我送上晚安,那会是怎样的感觉?而现在,通过AI的力量,这一切都成为了可能。

项目介绍

感谢up主“花儿不哭”的项目,让我的设想变成了现实。三只大猫的语音模型都是通过游戏内语音训练而成的。下面就来介绍一下模型的使用方法。由于训练模型需要较高的电脑配置,这里就省略掉训练的步骤了,大家可以直接使用我训练好的三猫模型。如果你对训练过程感兴趣,或者也想自己制作其他的语音模型,可以在B站直接搜索项目名称 GPT-SoVITS ,就能找到详细的教程。心急的小伙伴可以直接跳转到文章末尾,获取模型下载方式。

首次部署

首先下载好模型压缩包与GPT-SoVITS整合包,全部解压缩后你就会得到两个文件夹。

注意:请保证解压后的GPT-SoVITS-beta文件夹的位置不包括任何中文目录。

例如,像 D:\下载\AI语音\GPT-SoVITS-beta 这样的目录是不可以的,进行后面的操作时会导致报错。可以将它改成这样 D:\Xiazai\AIyuyin\GPT-SoVITS-beta

接着将模型放入整合包文件夹,ckpt后缀的放到GPT_weights文件夹,pth后缀的放到SoVITS_weights文件夹。如下图所示:

ckpt模型位置

pth模型位置

这个操作是让程序能读取到模型,只有下载新模型的时候才需要这个操作。

推理(合成语音)

在整合包文件夹中,打开go-webui.bat,注意是批处理文件。弹出终端窗口后,稍等一会儿,浏览器就会自动打开页面。

推理页面

然后点击上方的1-GPT-SoVITS-TTS,再点下面的1C-推理。在两个模型列表里选择你需要的模型,注意两个地方的发音人要一致,比如选择林虎就两边都要是Linhu。然后点击刷新模型路径,再点开启推理WebUI。稍等一会儿,会自动打开一个新的网页。

在这里,我们需要上传参考音频。找到刚才解压的参考音频,选择相应的发音人,以及想要的语气。

参考音频

这里可以预先试听一下每个音频,然后将选好的音频直接拖进网页中的参考音频位置。然后打开文件夹中的“音频文本”,复制你刚才选的音频所对应的文本,粘贴到网页上参考音频的文本里面。

注意,这里的参考信息并不一定要用up提供的音频。如果你找到了更适合的语气也是可以用的。这里的参考音频决定了待会儿合成的音频的语气和速度。另外,右边的参考文本一定要正确地打好标点符号,特别是音频中有停顿的地方,一定要在文本中打上逗号或者句号。右边的语种设置,根据实际情况选择即可。完成后如图:

参考信息填写完成

接下来,在下面的需要合成的文本位置,填写你想要合成的语音内容。至于右边的语种选择,参考上方的文字说明即可。这里的文本也需要正确打标点,才能保证语音合成正常。然后点击合成语音,稍等一会儿,这里的等待时间因电脑配置不同而异。你也可以在终端里观察合成进度。

终端输出信息

当网页右边输出的语音处出现播放条时,就表示合成完成,点击播放按钮就可以试听语音了。觉得满意的话,点击右边三个点,就能下载音频。

以上就是合成语音的基本操作。

下载

扫码加入大猫频道,获取模型整合包,与up交流使用体验吧!家有大猫QQ频道,不止大猫!

频道二维码

文档信息

搜索

    文章目录