Taiwan LLM - The first traditional mandarin large language models

林彥廷

Просмотров 22 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 10 сен 2024
#LLM #GenAI #Taiwan #zhtw #chatgpt #llama

Комментарии • 61

@radio0529 6 месяцев назад ⁺¹⁴
「形容一個人『好電』跟形容一個人『好雷』有甚麼差別?」
感覺這個問題很適合拿來考驗語言模型對文化的理解
也感謝電神發起這個企劃
@adamlin120 5 месяцев назад
愛您
@user-zq9bp5yv6z 7 месяцев назад ⁺¹⁴
非常感謝原作者的分享，可能是近期聽到最好的decoder only transformer的課程🎉
@adamlin120 7 месяцев назад ⁺¹
謝謝你的鼓勵！
@810602jay 7 месяцев назад ⁺⁴
非常寶貴的經驗! 感謝林博士的分享 🥰
@adamlin120 7 месяцев назад ⁺¹
謝謝你的鼓勵 🙏🏻
@KevinKuei 8 месяцев назад ⁺⁴
真的非常感謝林同學分享這些insights
@adamlin120 7 месяцев назад
謝謝您
@g83.07 5 месяцев назад ⁺²
太好了感謝你的分享我還在苦惱語言模型的問題
@chunyen7573 5 месяцев назад ⁺¹
收穫良多，期待未來更多的應用和結果
@BruceChouTW 6 месяцев назад ⁺⁴
謝謝林博士的分享，邏輯非常清淅易懂，分享的insight也全是重點，讓人聯想到Andrej Karpathy的教程。未來想聽您分享更多的算法見解如state space model跟mixture of token。
@adamlin120 5 месяцев назад
愛您
@user-grkjehejiebsksj 6 месяцев назад ⁺¹
感謝分享，台灣有你們真好🎉
@adamlin120 5 месяцев назад
愛您
@user-jr3rt2yt7u 6 месяцев назад ⁺¹
感謝地方賢達，愛您❤
@adamlin120 5 месяцев назад
愛您
@ficialArti Месяц назад
愛您
@gjlmotea 6 месяцев назад ⁺¹
加油國產拚個台灣之光&資安安全
@stuser 8 месяцев назад ⁺⁸
台灣的落地應用, 有機會找台灣的遊戲廠商合作嗎? 其實滿希望看到LLM應用到遊戲領域的
@adamlin120 7 месяцев назад ⁺¹⁰
我們 Taiwan LLM - v2 的合作夥伴就是遊戲業的相關廠商，LLM 在角色扮演(Roleplay) 已經看到很好的效果，我相信落地到遊戲中很快就會發生
@stuser 7 месяцев назад ⁺²
@@adamlin120 太棒了, 如果是繁體中文的遊戲, 應該可以收集到更多繁體中文玩家的對話語料 🙂
@chenchenlingcat 6 месяцев назад ⁺¹
01:14林彥廷OpenAI Codebase Next Word
@liangchang3678 5 месяцев назад ⁺¹
請問預訓練的資料集，如何加入title及source，例如作者、出自哪本書，每一筆資料結構會是長什麼樣子？另外請問每一筆長度若超過4000 token時，該怎麼處理？再請教預訓練後模型，該如何測試有學到新知識？
@adamlin120 5 месяцев назад ⁺¹
你可以直接想像是epub轉成txt檔。超過4000就把後續當下一筆資料
@起風咯 5 месяцев назад ⁺¹
台語(文)的分析與整理可以用Taiwan LLM
@user-jl9tp6xv4m 2 месяца назад
老師好，請教一下，如何測試落地與token驗證
@wangjohn9224 6 месяцев назад ⁺³
您好，问一个问题问您，llama2的tokenizer 中的简体和繁体的token都非常少，请问您们的团队是否对token做了扩充，增加了中文的token在里面，还有问一下，您的 continue pretraining 是使用losa的类似方式，对llama的模型做了freeze，还是在整个llama2 上面训练的谢谢,
@adamlin120 5 месяцев назад ⁺¹
CPT 是全參數訓練。不做詞表擴充是因為 1. 當時預算只夠跑一次訓練，不容失敗，不想嘗試太高風險的東西 2. stabilityai 的 japanese-llama-70b 做了日文擴充表現沒有比較好
@wangjohn9224 5 месяцев назад
@@adamlin120 你说的对，对于大语言模型，全量训练成本挺高，我想问的是：如果是从实际应用的角度，使用RAG配合向量数据库提供本地信息给大模型，是否可以一定程度上取代使用SFT 和RLHF 的全参数训练呢？RAG成本低一点
@me1996017 6 месяцев назад ⁺³
很感謝分享，看完整個影片後有幾個問題想請教
- 有提到嘗試跑FP8訓練，但資源有限，好奇是指Ada以及Hopper系列顯卡目前在台灣學術界還是很不足嗎?
- 關於體感體驗分數這個指標(metric)，有沒有可以分享的一些論文在做相關研究? 在做圖像生成的領域有很多人在討論 "aesthetic score"，影片中提到的 "文化匹配" 是不是也有一個可以量化的指標呢?
- 關於模型架構的部分，除了 MoE 外，有考慮做 Quantization 的實驗嗎?
@adamlin120 5 месяцев назад
FP8 我在去年底用 H100 和 4090 跑過，當時沒有一個訓練架構可以 finetune 原本不是 fp8出來的模型 (e.g. LLaMa)，目前好像有一點點支援了，但還沒嘗試過。Hopper 很少見，但是 A6000 Ada 挺多的
@adamlin120 5 месяцев назад
你提到 "aesthetic score" 這概念很棒，我也是一直在想在地化到底可不可以有自動化指標，目前還沒想法，但是用 arena.twllm.com/ 收集了一些群眾標註
@drayg0n806 7 месяцев назад ⁺³
感謝分享！
想請問 26:39 這邊的這種epoch內loss沒有明顯下降，但切換到下一個epoch 時會陡降是正常的現象嗎？最近在pretrain一個model的時候也遇到這種形狀的loss curve
有試著上網看過有些網友也有遇到，但好像都沒人能下結論說是好還是不好
@adamlin120 7 месяцев назад ⁺¹
26：39 這邊的 Y軸是cross entropy loss，屬於 log space 的維度，會貌似沒有下降太多。實際把數值取自然指數後（exp(loss))，還原成entropy就會比較明顯往下。
我的經驗是loss不要往上跑就可以了xD
Btw 這邊是訓練三個epoch，且固定資料順序。所以每當新的epoch開始時，loss會驟降也是正常現象。
@drayg0n806 7 месяцев назад
@@adamlin120 了解! 感謝林博士撥空回覆
@起風咯 5 месяцев назад ⁺²
我用Copiot查NTU是回答台大
@ChangKevinSiriusThory 6 месяцев назад ⁺²
有考慮跟教育部合作把一些官方的資料放進去訓練嗎？比如說教育部國語辭典之類的
@ura186 6 месяцев назад ⁺¹
模型很難做他要口語訓練就不能拿教科書沒人講話講成字典的說法
@adamlin120 5 месяцев назад ⁺²
倒是可以訓練進去台語客語，這部分語料應該政府比民間多
@Victor-ol9el 7 месяцев назад ⁺²
好奇想問一下，訓練的三個步驟您所用的framework是Nemo嗎？
@adamlin120 7 месяцев назад ⁺⁴
影片所說的訓練是用自己兜起來的腳本，有些用Megatron-llm。nemo 在2023末才支援 llama-2，影片中的模型來不及用上。順帶一提，Nemo+GPU應該是最有效率之一的，之後有大規模訓練我們會選用 nemo。
@Andrew-vh9td 6 месяцев назад ⁺¹
你的聲音很適合播音
@adamlin120 5 месяцев назад
愛您
@user-lh1tk6vz7s 5 месяцев назад
14:20預訓練
@Starburst8763 7 месяцев назад ⁺¹
請問Taiwan LLM可以使用Ollama、VLLM等等，這些用於加速性能或是使其易於開發LLM的套件商去嗎?
@adamlin120 7 месяцев назад ⁺¹
都可以呀，我自己都用 vllm 來 serve 模型。python -m vllm.entrypoints.openai.api_server --model yentinglin/Taiwan-LLM-13B-v2.0-chat --port 80 --host 0.0.0.0 --tensor-parallel-size 2
@Starburst8763 7 месяцев назад ⁺¹
@@adamlin120 您好，因為我的Vram只有16gb(4060ti)，所以我用的是Taiwan llm 7B，h0 參數gpu_memory_utilization=1，但還是出現ValueError: The model's max seq len (4096) is larger than the maximum number of tokens that can be stored in KV cache (2128).的錯誤，請問他可以quantization嗎?
@user-lx1wy4tc2h 7 месяцев назад
@@Starburst8763 依照 Error，你可以把 max seq len 設定成
@吳承憲 6 месяцев назад ⁺¹
使用TWLLM的話，用MoE-alpha還是13B-v2.0-chat?
@adamlin120 5 месяцев назад
finetune的話 13b 就行了
@garfieldlavi 5 месяцев назад ⁺¹
你們不用RLHF嗎？
@adamlin120 5 месяцев назад
試過幾次，體感回答的穩定性有比較好。之後的版本會做DPO/KTO
@gordonko Месяц назад
PhD 不是應該是做一些原創或基礎性的工作嗎？用OpenAPI現成的Tools Chain做一個LLM, 和拿Excel 寫一個報稅程式本質上有什麼差別?
@alanchau8037 7 месяцев назад ⁺¹
666
@adamlin120 5 месяцев назад
愛您
@taiwanSmart 6 месяцев назад
台灣的大語言模型叫做「草泥馬」？
@starfucks5327 6 месяцев назад
试了一下，基本傻掉了，与LLM对话他都没有反应，这点落后大陆的豆包、文心一言、和通义千问好几条街啊
@adamlin120 5 месяцев назад
廢話 Qwen很好ㄚ

Следующие

Автовоспроизведение

Has Generative AI Already Peaked? - Computerphile