HƯỚNG DẪN TẠO MODEL A.I GIẢ GIỌNG MC NGUYỄN NGỌC NGẠN
HTML-код
- Опубликовано: 23 июл 2024
- Trong video này mình sẽ hướng dẫn các bạn các tạo ra model AI clone giọng của MC Nguyễn Ngọc Ngạn giống như trong video • Giả giọng MC Nguyễn Ng...
Các phần chính trong video này như sau
- 00:00 Giới thiệu chủ đề video
- 01:58 Chuẩn bị dữ liệu
- 02:48 Xử lý dữ liệu
- 02:55 Loại bỏ phần thừa bằng Audacity
- 04:28 Cắt nhỏ file sử dụng FFMPEG
- 06:08 Xử lý âm thanh Ultimate Vocal Remover
- 09:40 Upload dữ liệu lên Google Drive
- 10:23 Huấn luyện mô hình
- 17:45 Inference mô hình
- 21:30 Xử lý hậu kì
Hi vọng rằng thông qua hướng dẫn này các bạn có thể biết cách huấn luyện một model AI để giả giọng của một người khác bất kì. Mình xin nhấn mạnh rằng video này chỉ nhằm mục đích chia sẻ về vấn đề kĩ thuật, mình không chịu trách nhiệm nếu cách bạn sử dụng các mô hình AI này vào mục đích xấu.
MỘT SỐ TÀI NGUYÊN
Code training: colab.research.google.com/git...
Dữ liệu và pretrained model: drive.google.com/drive/folder...
----
Facebook Page: / eztechvietnam
Group trao đổi về AI: / eztechvietnam
Viblo: viblo.asia/u/pham.van.toan
CẢM ƠN CÁC BẠN RẤT NHIỀU !!!!! Love you !!!!
Mình đã update thêm model G_1001.pth và D_1001.pth ở trong thư mục logs/44K. Các bạn có thể thử model này để thấy chất lượng tốt hơn với phiên bản chạy trong video. Cảm ơn các bạn rất nhiều
bạn có thể giúp mình được không ạ, mình đang rất cần cái này
@@NayChieu-ty2uq Bạn cần giúp gì nhỉ
Hi bạn cho hình hỏi 1 chút là làm sao để tạo ra modal training 1001 này vậy. Mình làm theo trong video bạn hướng dẫn thì nó chỉ dừng lại ở G_467 thôi và báo train done
@@chuyentamlinh9 Bạn thay đổi chỗ epoch trong file config là đc
@@eztechvietnam hi cảm ơn bạn đã trả lời, mình muốn hỏi thêm 1 vấn đề này nữa là trong quá trình mình clone ra thì xử lý rất lâu, file gốc 10p thì phải chờ thời gian nó convert cũng phải 20-30p thì mới chạy xong. Có config hay cách nào để rút ngắn thời gian ko bạn?
Có mấy bài hát idol e k hát nên e muốn tạo giọng ai trên nền nhạc của ca sĩ khác. A hướng dẫn có nhiều chỗ tắt quá nên e đi theo kịp. Cũng cảm ơn anh đã chia sẻ
Cảm ơn bạn.đúng thứ mình đang cần
Hay quá anh❤
Cám ơn bạn nhiều.
Cảm ơn bạn đã ủng hộ kênh ạ
Cảm ơn bạn nhiều
Hay quá ❤
Cảm ơn bạn nhiều
Hay quá ,cám ơn bạn chia sẻ ,không biết có dễ làm không
Cảm ơn bạn đã ủng hộ kênh, nếu có khó khăn gì bạn có thể đặt câu hỏi ở đây, mình sẽ giải đáp ạ
đẳng cấp thật
Sorry bác vì hôm qua mình comment trong lúc bị quạu vì ko làm được,Tks bác nhiều vì đã ra video chất lượng cho mọi người!,ra thêm nhiều vid mới bác nhé!
Dạ không sao bác. Có thể góc nhìn của mình từ người đang làm kĩ thuật nên mình cũng bỏ qua mấy chỗ cơ bản không nói đến. Nếu có khó khăn gì bác cứ nhắn lên đây mình sẽ hỗ trợ ạ
bạn làm video hướng dẫn cách nạp lại những thứ đã train rồi để sử dụng lại nhé.
Mình thấy bên chat GPT có tạo custom GPT để train giọng chú Ngạn, bạn thử chưa nhỉ, nếu kết hợp con chat GPT thì mình có cách nào ra kết quả xịn hơn k ad ơi?
hay quá quá anh ạ :D
Cảm ơn em nhiều
cảm ơn anh nhiều ạ
Cảm ơn bạn rất nhiều đã theo dõi kênh.
PRETTY GOOD MAN
thanks bạn rất nhiều m làm dc rồi
Chỉ mình làm với
🎉hay quá anh ạ
Cảm ơn em nhiều
Anh có model text to speed được không ạ😊
Text to speech trước đây mình đã có bài rồi bạn có thể tham khảo cách làm. Giờ có nhiều model khác tốt hơn nhưng quan trọng nhất vẫn là data
viblo.asia/p/ong-toan-vi-loc-ung-dung-deep-learning-tu-dong-sinh-ra-series-audio-truyen-ma-sieu-to-khong-lo-bJzKmwqkl9N
thank
cảm ơn bác haha
bạn có thể làm hướng dẫn cho bản local được ko ?Cảm ơn bạn nhé.
bác chủ ơi, tới lúc dùng model thì nó báo "rate must be specified when data is a numpy array or list of audio samples " là sao bác nhỉ
Tuyệt vời quá ạ, cảm ơn anh
Cảm ơn bạn nhiều nhé
Giọng bạn hay thế :)
Bạn có thể hướng dẫn cài vits svc fork được không
Cảm ơn bạn đã chia sẽ nghiên cứu kỳ công của mình , bạn xem cách nầy trên RUclips có đơn giản hơn không :" Cách làm AI Cover BẤT KỲ giọng ca sĩ nào | Cách làm chi tiết (phan đông giang) "
Phan đông giang mất phí, cái này ko biết mất phí ko bạn
Có chuyển văn bản thành giọng nói theo , theo mô hình giọng nói mình đã đào tạo được không Toàn ơi
Model này có thể đọc từ chữ viết thành file âm thanh không bạn ?
Mình đã làm và thành công nhưng mình muốn chất lượng âm thanh cao hơn nữa (giống hơn nữa) thì cần chỉnh ở bước nào bạn nhỉ (không sợ colab treo vì mình mua colab pro rồi :v). Cám ơn bạn nhiều lắm !
hướng dẫn kỹ giúp mình chuyển đổi qua đuôi .out.wav với.cảm ơn
👏👏👏
Bước Automatic preprocessing mình bị lỗi "/bin/bash: line 1: svc: command not found" và không thấy hiện thư mục dataset. Bạn hỗ trợ mình với ạ
Mình mở cmd của window lên hông dùng được ls -la bạn làm như nào để chạy ffmpeg thế
Mình góp ý thêm là mn có thể split file audio bằng WavePad nhé, gọn nhẹ và dễ làm hơn ffmpeg. Cơ mà chủ thớt cho mình hỏi có thể train voice khác bằng file model của bạn không, và train 2 voice cùng 1 mail GG Colab đc ko nhỉ
Cảm ơn anh về video. Hướng này tiếp cận cho việc generative ra video dạng music thì solution là gì anh nhỉ? Nhờ anh chia sẻ thêm
Ý bạn là chuyển thành giọng hát phải không. Giọng hát thì về lý thuyết có thể chuyển được nhưng muốn chất lượng tốt thì bạn phải có vocal sạch, thường cái này sẽ cần phải liên hệ với các bạn ca sĩ để cung cấp vocal cho.
Cảm ơn bạn nhiều vì đã chia sẻ. Bạn cho mình hỏi thêm với?
1. Code đó đang chạy trên google colab nó có bị mất không nhỉ? Mình có cần đưa nó về tài khoản colab của mình không nhỉ? làm sao mình đưa về?
2. À mình thấy có nhiều mã nguồn mở về trí tuệ nhân tạo (kiểu như Stable diffusion, MusicLM,.....vân vân). Có nhiều người low tech như mình muốn tìm hiểu và cài đặt và dùng thử nhưng không biết. Bạn làm hướng dẫn chung về cài đặt và sử dụng những phần mềm đó giải thích bằng ngôn ngữ của người low tech đi (cố gắng KHÔNG dùng thuật ngữ chuyên môn) sẽ có nhiều người quan tâm đó, nhất là mình :D
Cảm ơn bạn nhiều
Cảm ơn bạn. Mình xin trả lời câu hỏi của bạn
1. Bạn nên clone về colab của mình để dễ chỉnh sửa hơn. Code đó đã lưu lại bằng Google Drive rồi nên không bị mất model nhưng muốn lưu lại code thì bạn make copy về colab của mình cho chắc
2. Mình sẽ cố gắng thu xếp thời gian. Rất mong nhận được những ý kiến của các bạn về các ứng dụng muốn mình hướng dẫn nhé
nếu có sẵn dữ liệu train thì chỉ cần chạy phần pretrained model hả bạn
Mình chạy phần pretrained model thì báo lỗi này /bin/bash: line 1: svc: command not found
Quá hay anh ơi.nếu có thể tặng em 1 video hướng dẫn chuyển đổi văn bản thành giọng nói và ngược lại dc không ạ.em cảm ơn❤
Quà này to quá em ạ. Để mình thu xếp thời gian nha.
Em nghĩ chủ đề em nêu trên sẽ nhận đc rất rất nhiều sự quan tâm đó anh
Em nghĩ là bắt đầu có video về kỹ thuật sau hơn được rồi á anh.
Nhất trí luôn em ơi. Anh có plan rồi
mic bạn dùng tên là gì ạ , xin cảm ơn
em thấy GPU trên colab có giới hạn anh có thể hướng dẫn trên máy làm trên GPU cá nhân không
hay quá, cảm ơn bạn.
Cảm ơn bạn đã ủng hộ kênh ạ
cho mình hỏi để đạt được giọng nói giống nhất thì thời gian âm thanh là bao nhiêu
anh ơi, anh dạy chi tiết lại chủ đề này mà chạy trực tiếp trên máy tính đi anh
mic bác dùng là gì vậy, giá cao không bác
Mình làm ik như bạn nhưng tới bước export configs file nó không ra dc thư mục config...mong bạn giúp với ạ !
bạn giỏi và tài năng, video rất hay và bổ ích bạn ạ, nhưng đối với mình, 1 người hiểu công nghệ 1/10 ( và hầu hết những bạn nào ko rành về code, lệnh....) thì coi như bó tay huhuuu
Bạn ơi, chạy đến phần training thì colab báo: " Warning: Could not find TensorRT" là bị lỗi gì vậy bạn
Không được chán
Hihi, cảm ơn bác đã động viên. Em không có chán đâu ạ. Em lập kênh với mục đích chia sẻ kiến thức cho cộng đồng AI là chính nên cũng không có chuyện chán hay không chán ạ.
Video anh đăng giả giọng bác Ngạn là video nào vậy?
Cái colab này sau này có bị mất k anh nhỉ?
Ad ơi mk chạy đến đoạn train bị lỗi này thì sửa thế nạo vậy
The tensorboard extension is already loaded. To reload it, use:
%reload_ext tensorboard
[15:05:48] INFO [15:05:48] NumExpr defaulting to 2 threads.
anh ơi anh cho em hỏi sau khi training xong thì Google Colab có lưu lại project đã training để dùng cho lần làm việc sau không ạ? hay phải download file đã training về lần sau dùng thì load lại ạ? Em không phải dân kĩ thuật nên ko biết, mong anh giải đáp giúp em ạ
Trong code đó đã lưu lại file model vào Google drive rồi nên lần sau em chỉ cần load lại từ đoạn inference là được em ạ
Em cảm ơn anh ạ!
em làm được tới phân goolge colab. còn khúc đó không hiêu lắm . nhờ anh giúp đỡ em xin cam ơn
em cảm ơn anh vì bài hướng dẫn. Với phương pháp clone voice như này có cách nào áp dụng cho text to speech không anh nhỉ? (kiểu dùng voice clone để làm voice cho kênh youtube ý anh)
Voice clone đầu vào là audio nên em có thể dùng một model khác để sinh audio từ text đầu vào sau đó dùng audio đó cho vào voice clone nhé
@@eztechvietnam em hiểu ý anh nói như này ko biết có đúng ko ạ, tức là em sẽ vào app text to speech (vbee, fpt ai...) để tạo audio gốc, sau đó làm tiếp các bước như phần inference là được voice clone anh nhỉ?
@@eztechvietnam anh cho em hỏi thêm là làm voice clone như này có giới hạn thời gian file đầu ra ko anh nhỉ?
@@nguyenanphong Model mình tự train thì ko giới hạn gì em nhé. Dùng thoải mái luôn
@@nguyenanphongĐúng rồi em
Hi a. Cho e hỏi chút, của em chạy đến khúc use train model hiển thị "ValueError: rate must be specified when data is a numpy array or list of audio samples." ; "/bin/bash: line 1: svc: command not found" thì làm sao giờ ạ?
mình cũng bị như này, b có cách nào fix chưa ạ
anh oi cho em hoi tai sao Epoch cua em len toi 9999 vay anh?
Bác hướng dẫn có hơi rối. Cái này nhiều bước nên kể ra bác nên ghi chú từng bước trên màn hình thì hơn. Những người không rành AI làm theo dễ bị rối hoặc lỗi này lỗi kia. Dù sao cũng cám ơn bác đã chia sẻ
Cảm ơn bác đã góp ý. Mình sẽ để ý hơn trong các vid sau
Mình xem chả hiểu gì cả, khó quá
mình là người low tech, bạn có thể làm clip short hướng dẫn cách cài ffmpeg cho win 10 , sử dụng được và cắt clip như bạn làm không :), mình đã thử xem các clip yt khác nhưng gõ theo lệnh nó toàn báo lỗi thôi bạn. Cảm ơn bạn nhiều về clip chia sẻ bên trên :)
Ví dụ mình chạy lần 1 300 epoch thì lần sau có chạy dc tiếp từ đó ko hay load lại hết từ đầu hả ad?
Chạy tiếp được bác nhé
train model này online hả bro, nó có tốn chi phí gì không nhỉ
Luyện về sound thì bạn nên bỏ sound nhạc nền đi để tiện nghe rõ
Cảm ơn bạn đã góp ý, mình sẽ chú ý hơn trong các video tiếp theo
mình chạy bị lỗi không ak có cách nào khắc phục không bạn
chào bạn, mình dùng GPU AMD, có cách nào sử dụng được AMD thay vị NVdia ko bạn
khi đến bước Install dependencies: thì bị lỗi google-colab cụ thể là:
google-colab 1.0.0 requires ipython==7.34.0, but you have ipython 8.22.2 which is incompatible
mong đạo hữu chỉ giáo giúp. tại hạ xin chân thành cảm ơn.
Bạn ơi, cái này có thể cài đặt để sau khi học xong, mình chỉ cần nhập text vào để ra voice luôn được không? Cảm ơn bạn.
Đây là voice cloning nên đầu vào cần là audio còn công nghệ bạn nói là text to speech
Cái đoạn cắt thành nhiều file 10s rồi đem đi tách vocal liền là đúng bậy, toàn cho ra kết quả giọng có âm thanh rất tệ.
Làm đúng là phải xử lý file âm thanh gốc đủ kiểu cả trước lẫn sau khi vocal, sau đó bước cuối cùng cắt ra thành nhiều file 10s thì mới cho ra giọng AI chất lượng
Anh hướng dẫn thêm 1 model anti-spoofing lại nữa thì hay anh ạ
Anti spoofing thường bị phụ thuộc bởi thiết bị đầu vào khá nhiều mới đảm bảo chĩnh xác được em ạ
anh cho em hỏi chút ạ, làm cái này mình chuyển đổi đoạn audio dài 1 tiếng có được không ạ, nếu được thì thời gian tạo ra file mới mất khoảng bao nhiêu lâu ạ..em cảm ơn ạ
Về lý thuyết là được nhưng em nên cắt nhỏ thành từng đoạn ngắn hơn rồi xử lý xong ghép lại
bạn có thể giúp mình được k, mình cần cái này ạ
Cám ơn bạn video chi tiết quá 👍. Mong bạn làm thêm video hướng dẫn về Text to Speech cho tiếng Việt 🙏
Cảm ơn bạn. Mình sẽ thu xếp thời gian
Anh ơi có cần phải dữ liệu trên 1GB thì mới train được ai không ạ :(((
Các bác cho em hỏi: Em tải FFmpeg về nhưng không thấy file cài đặt ạ
Cái này m làm thành công rồi, nhưng mà nhiều từ nó phát âm như kiểu bị ngọng, bị tây hoá lơ lớ thì phải làm sao bạn? Hay phải train kĩ hơn? Mong dk bạn giải đáp!
chào bạn, cảm ơn bạn đã chia sẻ kiến thức rất hay mình đã làm theo và thành công. Bạn có thể làm video hướng dẫn tải model về máy để chạy trực tiếp trên PC được không ạ, cảm ơn bạn rất nhiều
Cảm ơn bạn nhiều. Tải về PC thì máy bạn cần có GPU nhé.
@@eztechvietnam vâng ạ, bạn có thể làm video hướng dẫn cho mọi người cùng biết được không ạ, tại mình cũng không phải dân kỹ thuật nên không hiểu lắm ạ. Cảm ơn bạn nhiều
@@lu0nghainamluong301 Cảm ơn bạn, mình sẽ thu xếp thời gian để làm video nha
@@eztechvietnam Vâng mình sẽ đón xem video của bạn ạ
em làm tới mục Automatic preprocessing thì hiện lên mục dataset và 44k đã có file WAV . Nhưng khi chạy SVC pre-config thì không hiện thư mục "configs - 44k- config.json " như video ạ. Mong anh hướng dẫn giúp em đoạn này
Tích hợp cái model train này vào phần mềm như balaboka như thế nào add ơi ???
Chắc bác lấy audio rồi chạy qua model này thôi ak
Ngay khúc đầu mình chạy Installation thì nó cứ quay mòng mòng "Connecting to Python 3 Google Compute Engine backend (GPU)", rồi báo Disconnected là sao nhỉ
thời lượng cần thiết cho target voice để cho ra chất lượng tốt là khoảng bao nhiêu lâu vậy ạ?
Nếu finetuning thì khoảng 10 phút thì mình thấy chất lượng cũng ổn rồi. Chỉ có mỗi cái là chất lượng voice phải tốt, âm sạch, không nhiễu và có độ đồng đều (tốt nhất nên lấy từ cùng 1 câu truyện như trong bài mình hướng dẫn để đảm bảo)
b ko hướng dẫn cụ thể cách dùng cái ffmpeg à
Xin lỗi bạn vì trong phạm vi video ngắn nên mình chưa hướng dẫn chi tiết được phần đó. Phần FFMPEG bạn có thể tải FFMPEG về máy. Có rất nhiều hướng dẫn trên mạng để bạn có thể cài đặt như phoenixnap.com/kb/ffmpeg-windows chẳng hạn. Sau đó thì bạn vào thư mục chứa file data rồi xử lý chạy lệnh giống như trên video thôi ạ
Lỗi /bin/bash: line 1: svc: command not found khi chạy preprocessing là sao bạn ơi. mình bị kẹt ở đây. mình cảm ơn
sao mình chạy Install dependencies không được bạn nhỉ
Hi ông, file ngan_original.wav ở đâu ra vậy ông nhỉ, t thấy file đó gần giống với giọng bác Ngạn luôn nhỉ? Có phải file đó mình tạo ra bằng cách ghi âm không
Cile ở trong google drive luôn bạn ạ. File đó mình tự thu bạn ạ
mình thấy giọng ông Ngạn luôn mà bác, có vẻ admin đưa nhầm file
chạy càng lâu thì giọng càng giống à bác chủ
Train AI này có ảnh hưởng đến cpu máy không ạ ?
Dùng chủ yếu là GPU thôi bạn
mỗi một lần chạy là phải train lại à bác ơi, có cách lưu lại để lần sau vào cứ thể thay đổi giọng luôn được không ạ?
@@user-cr2oi4zu8s k cần train lại, mục đích train là để lấy cái model g1000 và D1000. 2 cái file đó ông Toàn để link cho mọi người tải về, ném vào google drive là xong
cho mình hỏi là input có thể từ text to speech ko bạn
@@jonsonkasi092 không
em làm tới mục Automatic preprocessing thì hiện lên mục dataset và 44k đã có file WAV . Nhưng khi chạy SVC pre-config thì không hiện thư mục "configs - 44k- config.json " như video ạ. Mong anh hướng dẫn giúp em đoạn này. .CÓ AI BIẾT KHÔNG CHỈ GIÚP VỚI Ạ
click chuột phải trong vùng folder chọn refresh
Như em muốn làm giọng đọc của em, xong em đưa văn bản lên nó tự đọc theo giọng e set trước k anh
Vậy em phải làm model text to speech em ạ. Cái này là voice cloning thôi, tức là em phải có audio sẵn của giọng khác xong nó chuyển sang giọng em thì đc
Bh mn có thể dùng RVC V2 DISCONNECTED để train cx dc
(Ai muốn thử dùng cái này thì có thể trl bình luận này nhé,cái này là RVC chứ kh phải SVC nên có thể khác nma model vẫn là model AI thôi)
Bác chỉ em với
Anh ơi cho em hỏi là em muốn sử dụng luôn model bác Ngạn của anh train thì mình dùng như nào anh nhỉ em cảm ơn anh đã chia sẻ
Chạy svc pre-config =0% thì phải làm sao hả bạn ơi
bỏ qua lỗi này đi bạn, mình thấy nó vẫn chạy tiếp được ah'.
cảm ơn bạn đã hướng dẫn, bạn cho mình hỏi mình đang đến đoạn "Use trained model" thì bị báo lỗi là "ValueError: rate must be specified when data is a numpy array or list of audio samples." bạn cho mình hỏi đây là lỗi gì với ạ. Cảm ơn bạn nhiều
Lỗi đó có thể do file chưa kịp ghi vào drive. Bạn bỏ dòng display đi và chạy lại là được nhé
bỏ dòng display là bỏ hết cả 1 đoạn ạ bác, thế thì nó đâu còn cái dòng xuất file out bác nhỉ
@@eztechvietnam
@@hieudinh581 roi lam sao bac, minh cung bi
bác úp file lên để lâu tí cho nó nhận là ok@@GameUproar
Tạo model giọng mình sao bạn
trong lúc train có dc tắt máy ko b?
Bác nên mở trình duyệt tab đó trong lúc train để tránh ngắt kết nối
Cái này có làm dk video dài không bạn? Hay chỉ ngắn thôi ạ
Làm được dài
Bạn điên vl chia sẻ cái hay như vậy,phải download về gấp😍
mình train giọng hoạt hình của nhật cho nó nói tiếng việt được không bro, mong được hướng dẫn cảm ơn
Được bạn nhé. Bạn sinh giọng anime ra thay cho giọng bác ngạn là đc
@@eztechvietnambro hướng dẫn training để nó chuyển tts đi bro.
Em tính làm cái này cho kênh RUclips của em , mà em tính lamg một lần xong sau đó những lần sau em chỉ cần rõ văn bản ra cho nó đọc thôi , có được không ạ , chứ mỗi lần làm một video mà phải làm một đống quy trình chỉ có mỗi cái giọng thôi thì cũng hơi mất tg ạ
Em train 1 lần lưu lại model lần xong dùng là đc nhé
ANH GIÚP EM VƠI EM XIN CÁM ƠN
mình cũng đang bị kẹt chổ " Automatic preprocessing: /bin/bash: line 1: svc: command not found" không tìm thấy làm sao fix chổ này. mong nhờ admin giúp dùm với ah. thank you admin nhiều
Bạn có muốn chuyển sang RVC cho dễ kh
cái này train xong thì file index ở đâu vậy bác? em muốn train xong rồi mang về Pc để tạo voice mà k biết tải index ở đâu
Chào bạn, bạn có thể download model về máy và chạy dưới máy local được bạn nhé, nhưng phần đó mình chưa hướng dẫn trong video này vì muốn dùng dưới máy được thì máy bạn cũng cần có GPU mạnh mạnh một chút
@@eztechvietnam bạn có thể hướng dẫn phần tải model về máy để chạy được không ạ, cảm ơn bạn rất nhiều