Taiwan LLM - The first traditional mandarin large language models

Поделиться
HTML-код
  • Опубликовано: 10 сен 2024
  • #LLM #GenAI #Taiwan #zhtw #chatgpt #llama

Комментарии • 61

  • @radio0529
    @radio0529 6 месяцев назад +14

    「形容一個人『好電』跟形容一個人『好雷』有甚麼差別?」
    感覺這個問題很適合拿來考驗語言模型對文化的理解
    也感謝電神發起這個企劃

  • @user-zq9bp5yv6z
    @user-zq9bp5yv6z 7 месяцев назад +14

    非常感謝原作者的分享,可能是近期聽到最好的decoder only transformer的課程🎉

    • @adamlin120
      @adamlin120  7 месяцев назад +1

      謝謝你的鼓勵!

  • @810602jay
    @810602jay 7 месяцев назад +4

    非常寶貴的經驗! 感謝林博士的分享 🥰

    • @adamlin120
      @adamlin120  7 месяцев назад +1

      謝謝你的鼓勵 🙏🏻

  • @KevinKuei
    @KevinKuei 8 месяцев назад +4

    真的非常感謝林同學分享這些insights

  • @g83.07
    @g83.07 5 месяцев назад +2

    太好了 感謝你的分享 我還在苦惱語言模型的問題

  • @chunyen7573
    @chunyen7573 5 месяцев назад +1

    收穫良多,期待未來更多的應用和結果

  • @BruceChouTW
    @BruceChouTW 6 месяцев назад +4

    謝謝林博士的分享,邏輯非常清淅易懂,分享的insight也全是重點,讓人聯想到Andrej Karpathy的教程。未來想聽您分享更多的算法見解如state space model跟mixture of token。

  • @user-grkjehejiebsksj
    @user-grkjehejiebsksj 6 месяцев назад +1

    感謝分享,台灣有你們真好🎉

  • @user-jr3rt2yt7u
    @user-jr3rt2yt7u 6 месяцев назад +1

    感謝地方賢達,愛您❤

  • @ficialArti
    @ficialArti Месяц назад

    愛您

  • @gjlmotea
    @gjlmotea 6 месяцев назад +1

    加油 國產拚個台灣之光&資安安全

  • @stuser
    @stuser 8 месяцев назад +8

    台灣的落地應用, 有機會找台灣的遊戲廠商合作嗎? 其實滿希望看到LLM應用到遊戲領域的

    • @adamlin120
      @adamlin120  7 месяцев назад +10

      我們 Taiwan LLM - v2 的合作夥伴就是遊戲業的相關廠商,LLM 在角色扮演(Roleplay) 已經看到很好的效果,我相信落地到遊戲中很快就會發生

    • @stuser
      @stuser 7 месяцев назад +2

      @@adamlin120 太棒了, 如果是繁體中文的遊戲, 應該可以收集到更多繁體中文玩家的對話語料 🙂

  • @chenchenlingcat
    @chenchenlingcat 6 месяцев назад +1

    01:14林彥廷OpenAI Codebase Next Word

  • @liangchang3678
    @liangchang3678 5 месяцев назад +1

    請問預訓練的資料集,如何加入title及source,例如作者、出自哪本書,每一筆資料結構會是長什麼樣子? 另外請問每一筆長度若超過4000 token時,該怎麼處理? 再請教預訓練後模型,該如何測試有學到新知識?

    • @adamlin120
      @adamlin120  5 месяцев назад +1

      你可以直接想像是epub轉成txt檔。超過4000就把後續當下一筆資料

  • @起風咯
    @起風咯 5 месяцев назад +1

    台語(文)的分析與整理可以用Taiwan LLM

  • @user-jl9tp6xv4m
    @user-jl9tp6xv4m 2 месяца назад

    老師好,請教一下,如何測試落地與token驗證

  • @wangjohn9224
    @wangjohn9224 6 месяцев назад +3

    您好,问一个问题问您,llama2的tokenizer 中的简体和繁体的token都非常少,请问您们的团队是否对token做了扩充,增加了中文的token在里面 ,还有问一下,您的 continue pretraining 是使用losa的类似方式,对llama的模型做了freeze,还是在整个llama2 上面训练的 谢谢,

    • @adamlin120
      @adamlin120  5 месяцев назад +1

      CPT 是全參數訓練。 不做詞表擴充是因為 1. 當時預算只夠跑一次訓練,不容失敗,不想嘗試太高風險的東西 2. stabilityai 的 japanese-llama-70b 做了日文擴充表現沒有比較好

    • @wangjohn9224
      @wangjohn9224 5 месяцев назад

      @@adamlin120 你说的对,对于大语言模型,全量训练成本挺高, 我想问的是:如果是从实际应用的角度,使用RAG配合 向量数据库 提供本地信息给大模型,是否可以一定程度上取代使用SFT 和RLHF 的全参数训练呢?RAG成本低一点

  • @me1996017
    @me1996017 6 месяцев назад +3

    很感謝分享,看完整個影片後有幾個問題想請教
    - 有提到嘗試跑FP8訓練,但資源有限,好奇是指Ada以及Hopper系列顯卡目前在台灣學術界還是很不足嗎?
    - 關於體感體驗分數這個指標(metric),有沒有可以分享的一些論文在做相關研究? 在做圖像生成的領域有很多人在討論 "aesthetic score",影片中提到的 "文化匹配" 是不是也有一個可以量化的指標呢?
    - 關於模型架構的部分,除了 MoE 外,有考慮做 Quantization 的實驗嗎?

    • @adamlin120
      @adamlin120  5 месяцев назад

      FP8 我在去年底用 H100 和 4090 跑過,當時沒有一個訓練架構可以 finetune 原本不是 fp8出來的模型 (e.g. LLaMa),目前好像有一點點支援了,但還沒嘗試過。Hopper 很少見,但是 A6000 Ada 挺多的

    • @adamlin120
      @adamlin120  5 месяцев назад

      你提到 "aesthetic score" 這概念很棒,我也是一直在想在地化到底可不可以有自動化指標,目前還沒想法,但是用 arena.twllm.com/ 收集了一些群眾標註

  • @drayg0n806
    @drayg0n806 7 месяцев назад +3

    感謝分享!
    想請問 26:39 這邊的這種epoch內loss沒有明顯下降,但切換到下一個epoch 時會陡降是正常的現象嗎?最近在pretrain一個model的時候也遇到這種形狀的loss curve
    有試著上網看過有些網友也有遇到,但好像都沒人能下結論說是好還是不好

    • @adamlin120
      @adamlin120  7 месяцев назад +1

      26:39 這邊的 Y軸是cross entropy loss,屬於 log space 的維度,會貌似沒有下降太多。實際把數值取自然指數後(exp(loss)),還原成entropy就會比較明顯往下。
      我的經驗是loss不要往上跑就可以了xD
      Btw 這邊是訓練三個epoch,且固定資料順序。所以每當新的epoch開始時,loss會驟降也是正常現象。

    • @drayg0n806
      @drayg0n806 7 месяцев назад

      @@adamlin120 了解! 感謝林博士撥空回覆

  • @起風咯
    @起風咯 5 месяцев назад +2

    我用Copiot查NTU是回答台大

  • @ChangKevinSiriusThory
    @ChangKevinSiriusThory 6 месяцев назад +2

    有考慮跟教育部合作把一些官方的資料放進去訓練嗎?比如說教育部國語辭典之類的

    • @ura186
      @ura186 6 месяцев назад +1

      模型很難做 他要口語 訓練就不能拿教科書 沒人講話講成字典的說法

    • @adamlin120
      @adamlin120  5 месяцев назад +2

      倒是可以訓練進去台語客語,這部分語料應該政府比民間多

  • @Victor-ol9el
    @Victor-ol9el 7 месяцев назад +2

    好奇想問一下,訓練的三個步驟您所用的framework是Nemo嗎?

    • @adamlin120
      @adamlin120  7 месяцев назад +4

      影片所說的訓練是用自己兜起來的腳本,有些用Megatron-llm。nemo 在2023末才支援 llama-2,影片中的模型來不及用上。順帶一提,Nemo+GPU應該是最有效率之一的,之後有大規模訓練我們會選用 nemo。

  • @Andrew-vh9td
    @Andrew-vh9td 6 месяцев назад +1

    你的聲音很適合播音

  • @user-lh1tk6vz7s
    @user-lh1tk6vz7s 5 месяцев назад

    14:20預訓練

  • @Starburst8763
    @Starburst8763 7 месяцев назад +1

    請問Taiwan LLM可以使用Ollama、VLLM等等,這些用於加速性能或是使其易於開發LLM的套件商去嗎?

    • @adamlin120
      @adamlin120  7 месяцев назад +1

      都可以呀,我自己都用 vllm 來 serve 模型。python -m vllm.entrypoints.openai.api_server --model yentinglin/Taiwan-LLM-13B-v2.0-chat --port 80 --host 0.0.0.0 --tensor-parallel-size 2

    • @Starburst8763
      @Starburst8763 7 месяцев назад +1

      @@adamlin120 您好,因為我的Vram只有16gb(4060ti),所以我用的是Taiwan llm 7B,h0 參數gpu_memory_utilization=1,但還是出現ValueError: The model's max seq len (4096) is larger than the maximum number of tokens that can be stored in KV cache (2128).的錯誤, 請問他可以quantization嗎?

    • @user-lx1wy4tc2h
      @user-lx1wy4tc2h 7 месяцев назад

      @@Starburst8763 依照 Error,你可以把 max seq len 設定成

  • @吳承憲
    @吳承憲 6 месяцев назад +1

    使用TWLLM的話,用MoE-alpha還是13B-v2.0-chat?

    • @adamlin120
      @adamlin120  5 месяцев назад

      finetune的話 13b 就行了

  • @garfieldlavi
    @garfieldlavi 5 месяцев назад +1

    你們不用RLHF嗎?

    • @adamlin120
      @adamlin120  5 месяцев назад

      試過幾次,體感回答的穩定性有比較好。之後的版本會做DPO/KTO

  • @gordonko
    @gordonko Месяц назад

    PhD 不是應該是做一些原創或基礎性的工作嗎?用OpenAPI現成的Tools Chain做一個LLM, 和拿Excel 寫一個報稅程式本質上有什麼差別?

  • @alanchau8037
    @alanchau8037 7 месяцев назад +1

    666

  • @taiwanSmart
    @taiwanSmart 6 месяцев назад

    台灣的大語言模型叫做「草泥馬」?

  • @starfucks5327
    @starfucks5327 6 месяцев назад

    试了一下,基本傻掉了,与LLM对话他都没有反应,这点落后大陆的豆包、文心一言、和通义千问好几条街啊

    • @adamlin120
      @adamlin120  5 месяцев назад

      廢話 Qwen很好ㄚ