Wih keren banget materinya mas, saya punya pertanyaan: 1. Kalo dia multiple dataset, berarti train tokenizernya per 1 dataset, atau digabung semua dataset menjadi 1 (untuk train tokenizer from scratch), sama halnya dengan ngelatih model llmnya dari scratch apakah metodenya bakal sama? 2. Inikan berarti untuk Next Sentence Prediction, apakah untuk ngelatih model ke Instruct model bisa pake metode ini juga atau berbeda ya? Terima kasih banyak mas, semoga ilmunya semakin mencerahkan anak2 Indonesia untuk belajar AI
Untuk multiple datasets tetap train tokenizer nya sekaligus kalau mengacu ke implementasi tokenizer populer seperti Huggingface tokenizer dan OpenAI tiktoken. Lalu, untuk train model di fase SFT atau instruction tuning, tetap menggunakan next-token prediction, namun ada opsi hanya dilatih menggunakan answer sequence (bukan input sequence).
Bisa saja, tapi tidak praktikal. Membuat LLM dari nol membutuhkan resource GPU yang sangat banyak dan menghabiskan modal ratusan miliar untuk membuat LLM yang bersaing dengan LLM sejenis. Jauh lebih efisien menggunakan LLM yang sudah ada baik LLM proprietary seperti Gemini/Claude maupun LLM open-source seperti Llama/Qwen
Hasil dari ML model itu bergantung kepada seberapa besar skala nya kak. Jadi ada yang disebut sebagai transformer scaling law yang menjelaskan, semakin banyak data, semakin besar ukuran model, dan semakin lama waktu training akan meningkatkan akurasi model. Jadi untuk jawaban kakak, bisa kalau kita melakukan training dengan model sebesar GPT, dengan data sebanyak yang dikumpulkan OpenAI, dan dengan durasi sebanyak waktu training GPT kak. Semoga jawaban nya membantu 🤗
Hehe mantap bang
Bg makasih bahan belajar
Wih keren banget materinya mas, saya punya pertanyaan:
1. Kalo dia multiple dataset, berarti train tokenizernya per 1 dataset, atau digabung semua dataset menjadi 1 (untuk train tokenizer from scratch), sama halnya dengan ngelatih model llmnya dari scratch apakah metodenya bakal sama?
2. Inikan berarti untuk Next Sentence Prediction, apakah untuk ngelatih model ke Instruct model bisa pake metode ini juga atau berbeda ya?
Terima kasih banyak mas, semoga ilmunya semakin mencerahkan anak2 Indonesia untuk belajar AI
Untuk multiple datasets tetap train tokenizer nya sekaligus kalau mengacu ke implementasi tokenizer populer seperti Huggingface tokenizer dan OpenAI tiktoken. Lalu, untuk train model di fase SFT atau instruction tuning, tetap menggunakan next-token prediction, namun ada opsi hanya dilatih menggunakan answer sequence (bukan input sequence).
@@KreasofAI Sipp sangat membantu mas, terima kasih banyak untuk infonyaa 😁
apakah bisa digabungkan dengan chatbot seperti di tele/wa?
Bisa saja, tapi tidak praktikal. Membuat LLM dari nol membutuhkan resource GPU yang sangat banyak dan menghabiskan modal ratusan miliar untuk membuat LLM yang bersaing dengan LLM sejenis. Jauh lebih efisien menggunakan LLM yang sudah ada baik LLM proprietary seperti Gemini/Claude maupun LLM open-source seperti Llama/Qwen
Ini klo misal berhasil buat llm sendiri apakah bisa setara dengan Gpt dan claude?
Hasil dari ML model itu bergantung kepada seberapa besar skala nya kak. Jadi ada yang disebut sebagai transformer scaling law yang menjelaskan, semakin banyak data, semakin besar ukuran model, dan semakin lama waktu training akan meningkatkan akurasi model. Jadi untuk jawaban kakak, bisa kalau kita melakukan training dengan model sebesar GPT, dengan data sebanyak yang dikumpulkan OpenAI, dan dengan durasi sebanyak waktu training GPT kak. Semoga jawaban nya membantu 🤗
@KreasofAI kykny susah yah bang, klo pengen di train kyk llm GPT, pasti nya butuh storage besar juga buat handle semua data ny 🗿