GPT-SoVITS语音克隆AI,只需一分钟素材训练模型,效果堪比商用。一键安装,附Colab脚本 | TTS | RVC|GPT-SoVITS Colab
HTML-код
- Опубликовано: 2 июл 2024
- GPT-SoVITS声音克隆AI,只需1分钟语音克隆效果堪比商用!开源免费,开箱即用!附手动安装教程
这个AI一是容易上手,对初学者友好。二是虽然用到的所有技术不是最新的,但它开创性的加入了GPT模型的机制,并以参考语音做为提示,非常好的解决了语音克隆的声音泄漏问题,生成的语音无论在音质还是真实度上,综合表现都非常不错,也支根据提示语音直接克隆, 就是不需要训练模型。目前支持中、英、日三种语言。
丝滑如真人的语音合成chatTTS
• chatTTS语音合成,效果真实如人类,开源...
• chatTTS三合一升级版,多人对话、固定音...
最好的英文语音合成 OpenVoice
• 免费TTS工具OpenVoice,无需训练,...
GPT-SoVITS训练推理细节,控制语速语气技巧。
• GPT-SoVITS克隆语气情感,老司机必备...
项目网址:github.com/RVC-Boss/GPT-SoVITS
Colab运行:colab.research.google.com/git...
一、手动安装指令
git clone github.com/RVC-Boss/GPT-SoVITS
cd GPT-SoVITS
python -m venv venv
call venv\Scripts\activate.bat
pip install torch==2.1.1 torchvision==0.16.1 torchaudio==2.1.1 --index-url download.pytorch.org/whl/cu118
pip install -r requirements.txt
二、一键运行脚本
@echo on
setlocal
call .\venv\Scripts\activate
python webui.py
说明:目前整合包还不完善,不是所有环境下都能成功运行;
MAC下的安装可以参考以下链接
github.com/RVC-Boss/GPT-SoVIT...
AI生成音乐: • Meta开源的AI音乐生成工具,可平替Sun...
AI翻唱歌曲: • 最强AI翻唱 RVC WebUI本地安装与使用教程
VALL-E-X: • 三秒语音就能克隆自己的声音,VALL-E-X...
AI换脸: • FaceFusion重磅更新!去遮挡、高清化...
00:00 介绍
01:17 录音训练模型
07:53 影视素材训练
11:18 手动安装 Наука
补充:第一环节中最后一步,给文本打标注那里忘说了一句,修改完文本后要先点【Submit Text】按钮
附Colab脚本:colab.research.google.com/github/RVC-Boss/GPT-SoVITS/blob/main/colab_webui.ipynb#scrollTo=e9b7iFV3dm1f
怪不得savefile,还是不变,软件效果真是太棒了
这版Colab脚本非常棒,调整一下目录位置后能正常执行,在语音转文字上准确度很高,要修正的字很少 (我才改了两个字),在文字转语音上速度也比抖音上网友的版本快(也有可能和Colab不同时段负载有关),能直接重复使用先前建立的模型,真是太完美了。
@@foserli 执行最后一步把训练好的模型导入,再打开推理界面
@@foserli 关闭VPN或者梯子软件即可
@@AIDiscovery2045 config.py里第10列 is_share_str = os.environ.get("is_share","False") 最后的False改成True就能显示 public URL了。
非常有用! 真實,操作詳細, 照這樣出片下去,你會是AI界 工具介紹類的權威頻道
太赞了! 一直没找到合适的中文语音tts,中间用你自己声音训练的一段我跳着看我都没发现是训练的演示成果,感谢分享👍
不错,又有新的 a.i 工具了!,期待接下来还有更多的介绍😊,谢谢🎉❤
太棒了 秩序井然 层层推进 细致贴心的讲解
太棒了,这个对做视频的人来说,做旁白解说太有用了!
平时不爱评论的我,特别动动手指给个好赞吧,的却讲的太详细了。期待博主的更多更新
谢谢你的支持~😃
您的讲解得太好了👍👍
太牛了,感谢感谢,省钱省事,自媒体良心博主 win10没问题,效果杠杠的
感谢支持~
关注很久了,每次带来的软件多超级实用
感谢支持!
简单扼要,都是精华
絕對是干貨分享❤❤❤❤
好棒的分享!!谢谢!! AI太强啦
逆天!感谢分享!
发自内心的感谢大佬无私的分享
非常的牛 又快又好用😎
虽然很麻烦,但技术贴,很有意思,支持先
感谢分享🎉
感谢分享
感謝分享,簡直跟原聲一模一樣😁
好屌喔
太誇張了
太牛了
非常感谢,正在之前看的换脸,正在考虑要什么方案换声呢,感谢大佬分享
牛逼啊
这个确实挺牛的
相当强悍啊
用整合包试了可行,克隆出来的声音还行
方言才是王道
很细心,连怎么删除都讲!
好厉害的 ai
很厲害 可是聽起來很沙啞 感覺還不太真實,但我相信再過幾年可以改善這問題
可以做成前段时间国内抖音很火的改歌词唱歌的那种吗?抖音电影解说现在卷的全是唱歌了,用的ACE Studio,直接改了歌词之后,可以唱歌
講解得太棒了。請問訓練了第一次發現雖然相似度高達70%,但有些發音有瑕疵需要修正的話,該如何處理呢?上傳新的文本重新再跑一次嗎
非常详尽的教程。请问老师,如果mac环境下,不使用cuda,而使用mac的显卡加速,能成功搭建训练模型么?
mac支持M1和M2芯片,请参考官网手动安装指令
谢谢,昨天测试了。但是到打标住的环节总是出错,还没搞明白问题原因。@@AIDiscovery2045
还有个问题大佬,我在云平台训练好后,把训练好的SoVITS_weights和GPT_weights文件下载到本地对应文件夹里,怎么用不了啊?合成出了视频但是没有声音
我的电脑手动安装了还是运行run.bat无反应,如果可以云端执行就好了
这是一个恨棒的频道,我已经订阅。 想请问若这个开源软件更新后,我是需要重新再下载一次吗?并且需重复在执行一次模型训练的动作吗?谢谢您
整合包需要重新下载,模型可以复用。
@@AIDiscovery2045 非常感谢您的回覆,另外我想请问这个开源软件可以使用繁体中文进行操作吗?
@@user-lc8ht2gy6m 推理合成文本可以写繁体,但参考音频的对应内容必须是简体。因为第一环节里ASR之后,标注文件里是简体的标注文本。
刚留言的一堆报错问题被RUclips删了,就是log目录下面没有任何新建文件,但是提示有“输出logs/实验名目录下应有23456开头的文件和文件夹”,另外就是一堆Python的报错,传上来被删掉了,应该如何解决?
这个效果就完全像是你在念稿念顺口溜说外语或是在用别人现成的配音一样😮
我觉得好神啊,西游记里取的女声,竟然配音感觉把握得那么准,Ai能力吓到我了。 谢谢分享 问下GoLab上能用吗
可以,视频下方详细说明里有链接
大佬,两次微调之后,GPT_weights等两个文件夹里没保存的模型是什么情况呀
请教一下老兄,文本校对标注那一步,我手动改了界面上某句话的文字,并且保存文件,怎么list文件里没有改呢?如果我直接跳过那个界面,手动改那个list文件是否也可以?
submit 看下置顶评论
哦,看见了@@AIDiscovery2045
可以提供一下你的那个音频给我吗?SoVITS正常,我老卡CPT训练,点了几百遍才有一次成功,就算是成功了还是没有模型,也不知道那里出的问题,我想拿你的音频做参考
感觉机械感还是不少,如果训练够久不知道会不会好些。
对比sovist v4那个集成版效果区别大吗,那个要训练几个小时成模型再推理,要的素材30分钟以上切成10s左右的素材,效果唱歌还行,这个版本没有训练过程不知道效果差距大不大
目前这个版本只有TTS的功能,RVC也就是翻唱功能还没开放。至于效果可看视频里几个克隆例子
问下如果要配置一台差不多的台式 需要什么级别的显卡和CPU 内存32够吗?3060+32内存 顺带剪剪视频 加上一些常用的AI工具什么配置能跑起来?
应该够了,这个AI其实8G显存就能非常顺畅
兄弟,你这个CPU和显卡分别是什么型号的,我也准备整一台这样的设备,现在用的老机器都快10年了,200字文本转语音耗无法言语,时真的比蜗牛还慢
牛
你培养出来的女王声音分享下呀0.0 懒人准备只拿不自己生成
哥咱就是说,能分享一下模型吗,电脑太慢训练不了
我下载的prezip, 2-gpt-sovits-变声下面显示的是施工中,请耐心等待。这是我没弄好还是这个软件现在暂停使用
老师你好!使用整合包,在一件三联的时候,我的GPU imformation显示的是:Unfortunately, there is no compatible GPU available to support your training. 所以一件三联没有成功。这个说明我的笔记本硬件不符合要求吗?一定要有独立显卡?
是的
考虑云主机
请问有没有mac 版本能用的详细教程啊?
项目主页上有;安装流程和windows下的手动安装一样,仅激活虚拟环境指令有区别
想请问ASR批量处理后为什么不会生成新的list文件呢?感谢
可能是语音没有识别成功,ASR时切换到命令窗口看下输出信息有没有报错
我的天哪 !!
大神,如果是英语训练要怎么训练啊,求带
老師好。請問出現這個問題該怎麽處理?
2024-02-23 16:24:24,275 - modelscope - INFO - PyTorch version 2.0.0+cu118 Found.
2024-02-23 16:24:24,277 - modelscope - INFO - Loading ast index from C:\Users\User\.cache\modelscope\ast_indexer
2024-02-23 16:24:24,417 - modelscope - INFO - Loading done! Current index file version is 1.10.0, with md5 dc0c9ee702463555275a41f8a2fb65fe and a total number of 946 components indexed
2024-02-23 16:24:24,995 - modelscope - INFO - Use user-specified model revision: v2.0.4
Downloading: 0%| | 0.00/840M [00:00
可能是你的显卡CUDA版本高于11.8
请问这个必须是N卡吗?Intel和AMD的核显就无缘这个工具了吗 我在这两种设备上执行到最后一步的时候直接报错 控制台错误中有cuda字样
上云吧,免费的colab可以跑
老师在进行开始离线ASR 的时候出现SystemError: initialization of _internal failed without raising an exception怎么办啊
硬件什么配置
6G 显存
@@user-cw6rr7dp4g ASR模型有没有自动下载,在C盘Cache目录里
真牛!但是只能在windows 下使用吗?
linux、mac全平台支持,只是没有整合包,需手动安装;
群晖上可以用吗?
谢谢。有没有推荐 text to speech 的免费的?目前都是超过一定字符收费。
这个就是免费的,且开源;但需要自己训练模型。
MeloTTS也是免费,但只有一种自带的音色可选。这期视频有介绍 ruclips.net/video/5WHvFLDZg18/видео.html
老师你好 问下 这个文件生成 可以用在电销机器人里吗
生成的是标准格式的WAV音频文件,应该各类播放软件都能支持
博主,您好!我训练完模型以后,文件夹SoVITS_weights和GPT_weights里是空的,请问怎么解决?前面的步骤都跟上了,谢谢~
可能是训练时出错了,需要看看命令窗口有没有出错 信息
老师,有中文的WIN10整合包网盘吗?我的用IDM下不了。
视频下方详细说明里有这个项目的官方链接
请问博主,我要翻唱一首歌,还要更改歌词,用这个AI能做到吗?
目前还没有翻唱功能。想翻唱可以看这期,但改不了歌词。ruclips.net/video/ocXOeMZc1XI/видео.html
8-10分钟左右的配音可以吗?
粤语好像不能使用呢
很方便快速 感謝教學,只是好像無法用在歌曲?
嗯,目前歌曲RVC功能还没发布
@@AIDiscovery2045 期待發布後up主的教學 感恩
请问目前是只能支持中日英三种语言的输入和输出吗,有什么方法可以训练其他小语种吗
暂时没办法,底模不支持
可以試試看SVC
另外,请问这次训练出来的模型,下次可以用吗?还是要重新训练?
下次可以用直接,前面步骤跳过,直接钩选推理标签就能克隆了
太棒了!谢谢。@@AIDiscovery2045
老师真的厉害啊,可惜我中途遇到了模型的提示:很遗憾您这没有能用的显卡来支持您训练,惨,买的笔记本没有独立显卡,呜呜呜,台式电脑在其他城市,好难受啊,嘿嘿嘿第一次在RUclips上,第一次翻墙,第一次在外网上评论,见证历史,嘿嘿嘿老师很有幸,您见证了未来的一个伟大企业家的历史痕迹
感谢老师分享,已经学习和下载了,换一台电脑应该就可以弄了,复习了几遍视频,讲解非常仔细,十分感谢
感谢支持
做大篇幅的语音阅读,这个适合吗?
建议多批次,每段300以内
大佬,我进行到微调训练后,你说的sovits-weights和,gpt-weights文件夹里都没有模型,应该怎么处理
那估计是在一键三连按钮那里就报错了
能不能帮我训练一段祝福语呀
UP,你好。我刚刚看了你的教程,就想去克隆一款gal里面女主的配音。于是我把文件解包,然后把女主的语音文件按照视频步骤一步步操作。可是到最后生成语音文件时,可以成功生成,但生成的文件没有声音。我一开始以为是我第一次在修改语音转文字时,误把多个语音文件给合并后又重新拆分。然后我就把这部分文件删除后,重新第二次重头重来。但故障依旧,生成的语音文件没有声音。所以我现在怀疑,是不是第一步语音文件拆分那里的问题。因为gal语音文件一般都只有几秒,而且就是纯语音,没有背景音。所以我就直接拿来用模型训练。
更换提示语音片段试下
@@AIDiscovery2045 更换参考音频还是一样,生成的语音没有声音。我有点怀疑,是不是我电脑硬件配置的原因?这台电脑还是两年前买的,配的是GTX1650。
@@ttzsgame 用正带工具,把语音素材去混音,重新训练一次,模型名换个新的试试
声音已经成功切割 为什么我的 asr 批量处理的 出来的list文件为空 里面什么都没有
大佬你好,请问最后合成语音processing那一步为什么一直在加载啊,一个多小时了都没好
已经弄好了。再一次感谢大佬的分享,帮了我大忙了!!!!!!谢谢!
请问下,如果使用电影里面的角色配音,训练出来的模型可以用到商业作品吗?
这个问题需要咨询专业的律师。目前在生成式AI的相关法律规范不完善的情况下,可以打一些擦边球,看运气了
目前各国的知识版权相关法律好像还没有支持对音色进行保护和授权的,主要也不好界定。但如果打着相关角色和演员的旗号就另当别论了。
我在ASR处理之后不会生成list文件,不知道怎么回事?
同问
一些模型可以吗
想请教一下,训练模型SOVIT显示成功。但是推理时SOVIT模型列表下面没有对应模型选项,查看训练模型文件夹也是空的。但是训练时提示成功。而GPT模型提示成功,文件夹不是空的
提升成功有时会出Bug,要看命令窗口有没有success提示。训练时要切命令窗口看详细提示才行。
@@AIDiscovery2045 感谢大佬回复!窗口也提示成功了,我卸载两次又重新安装两次还是这样的情况 (克隆出的声音就不好)。 之前使用的时候一直是好的。(克隆出来很好)
请教一下,我老是卡在ASR处理这一步,显示:funasr_asr.py: error: the following arguments are required: -o/--output_folder,有解决办法吗?用的是beta0217版
看出错信息可能问题在输出目录设置上。使用默认输出路径试一下;另外检查下整合包解压路径里是否有中文目录
之前的问题解决了,是独显检查不出来,改了相关文件的检测,把GPU改为0,但是1Ba-SoVITS训练部分,既不报错,也不知道有没有生成模型,也不保存模型,这个是真没辙了,还请老师帮忙参谋一下,看看如何解决好?
显卡问题,程序用到CUDA,太老的型号可能找不到相应的依赖包和驱动
@@AIDiscovery2045 已经更换更高级别的显卡,顺利完成声音克隆,感谢老师的指导!
这个怎么用啊?有软件直接可以安装?
FileNotFoundError: [Errno 2] No such file or directory: 'logs/讲故事男声1/2-name2text-0.txt'
错误: 没有找到进程 "8584"。
错误: 没有找到进程 "10860"。
老师,一键三连时报错,是哪里出了问题?
看出错信息好像是路径不对;对着视频看看标注文件那填写的路径是不是不完整
好的,我再查查,谢谢老师@@AIDiscovery2045
呀,我没看到你下面的补充,我再试试,那个脚本是啥?需要加进去吗?@@AIDiscovery2045
我也是这里报错
后来您这个问题解决了吗?怎么解决的?
我一点主程序就跳 出一个框
发现合成中文语言的时候,系统会跳过一些文本,有时候甚至插入一段语言是在sample里面的语言,乱点了。我看你视频里面demo的文本里面也被系统“吞”了一段文本,不知道是否有办法修复这个bug
是有吞字的问题,可能跟语速有关,目前这个bug只能把语句缩短解决
之前用so-vits-svc 系统的ASR不会吞句子片段,但是训练时间比较长,声音还是有点低沉和小失真;SoVITS感觉音色好一些,训练速度快一些,吞字应该是代码还是有比较大的bug,可能是引入gpt提示有关系。看看后面是否能bugfix@@AIDiscovery2045
感觉很复杂 有没有更简单的工具 😂
一个小问题,用这个软件需不需要开通chatgptdp的Api?
不需要,只是使用了跟chatgpt类似的算法,跟chatgpt其实没关系
你好,一键三连提示中途错误,我的显卡是:NVIDIA Geforce GTX 660,显卡信息,显示:很遗憾您这没有能用的显卡来支持您训练,命令框显示:TypeError:str expected,not Nonetype
traceback (most recent call last), 请问老师是不是我的显卡不支持?还是配置有问题?
660估计跑不动,AI用到的依赖包不支持
请问一下博主,语音克隆可用在哪些方面?谢谢
场景很多啊,比如制作自己的数字人、视频混剪重新配音,有声书等等
大佬,最后一步,推理模型,提示施工中请静候佳音,怎么解决?
施工中不是推理,还未开放的RVC,推理功能在下面一行
一定要N卡才能用吗?intel核显可以吗?
目前版本还不支持集显
外面确实能学习很多东西,不像有的地方连个剪辑都要用来坑你的钱,各种课程,总是利用信息差去坑自己人,想学东西还是上这来。。
老大~聲音訓練完 那些DEFG模型檔案能刪除嗎? 空間占很多
如果不想继续训练可以删除
@@AIDiscovery2045
了解~感恩
大佬好,我显存有8G,但是按默认参数训练SoVITS模型还是提示显存不足,降低batch size到2,总训练轮数到4之后训练成功了,请问是因为用于训练的语音过多了吗
batch size跟内存有关,视频演示的是10分钟训练素材,机器配置8G显存,32G内存
我内存也有32G,我再调一下试试吧,谢谢大佬@@AIDiscovery2045
GPT_weights和SoVITS_weights文件夹里没有GPT模型和SoVITS模型,是保存到别的文件夹里了吗
可能是前面步骤后台命令窗口报错了
我看了一下进程,显示的是这个。ConnectionResetError: [WinError 10054] 远程主机强迫关闭了一个现有的连接。@@AIDiscovery2045
我训练过成功还是挺顺利的,就是训练出来的模型声音带点尖锐的电流声,素材是没什么噪音的,训练出来就有了,不清楚什么情况
可能还是素材或者打标注的问题,试试素材去混响
如果只用推理模型的话,怎么选?
直接到推理标签页,勾选推理页面方框,在新网页里选模型、推理即可
我想问下,这个用于训练的语音文字在哪里找?我是随便说什么都可以吗?随便内容都可以吗?
要以看下视频中声音克隆那一段的演示,推理部分