【生成式AI導論 2024】第10講:今日的語言模型是如何做文字接龍的 - 淺談Transformer (已經熟悉 Transformer 的同學可略過本講)

Поделиться
HTML-код
  • Опубликовано: 1 окт 2024
  • 投影片:drive.google.c...
    為了能讓第一次學習Transformer的同學可以更容易了解其內容,本課程對 Transformer 的說明進行了部分簡化
    19:10 計算關聯性的模型內部運作如下:先把兩個輸入分別乘上兩個不同的 Matrix (這兩個 Matrix 是透過訓練資料學得) 得到兩個向量 (也就是得到文獻上常常提到的 query q 和 key k),再把這兩個向量做內積得到 Attention Weight
    20:40 此處省略了文獻上常常提到的 value v
    22:30 根據上述Attention Weight的計算過程,Attention Matrix 不一定是對稱的,自己對自己做 Attention 算出來的 Attention Weight 也不一定是最高的
    23:00 因為 Causal Attention 的原因,Attention Matrix 其實是一個 Triangular Matrix
    延伸閱讀
    • 【機器學習2021】Transformer (上)
    • 【機器學習2021】Transformer (下)

Комментарии • 41

  • @sunnynie4290
    @sunnynie4290 5 месяцев назад +34

    您真是天生的好老师, 我一直没换台,居然能听得津津有味

  • @hankdonald7812
    @hankdonald7812 4 месяца назад +14

    0:40 大语言模型所做的事情,就是文字接龙
    3:15 大语言模型所用类神经网络之一Transformer概述
    4:53 1,Tokenization 文字转为Token
    9:18 2,Input Layer 理解Token,该阶段会将Token转为Vector(Embedding),LLM并不理解单纯的Token的意思,而可以理解每个Embedding的意思。Positional Embedding是加了位置信息的Embedding。
    15:47 3,Attention 理解上下文,将Positional Embedding转为 Contextualized Token Embedding。
    26:02 4,Feed Forward 整合、思考
    28:07 5,Output Layer 得到输出
    29:01 大语言模型运作过程,chatGPT只考虑左边已经输入的文字,无需考虑右边文字。
    33:16 为什么处理超长文本是挑战,因为计算Attention的次数是与文本长度的平方成正比的,所以增加文本长度后,计算量的增加是非常大的。

  • @NickHuang
    @NickHuang 5 месяцев назад +10

    謝謝老師分享,很棒的教程和內容,很喜歡說明的條理和安排方式。

  • @HungHsunHuang
    @HungHsunHuang 5 месяцев назад +7

    想請問老師,BERT的"Bidirectional",是否可以理解為 "會判斷token以及其右邊(下文)相關性" 的attention模組呢?

    • @deskeyi
      @deskeyi 5 месяцев назад +7

      本來就是這個意思,這是BERT和GPT的主要區別之一

  • @XChloeC
    @XChloeC Месяц назад +2

    用英语学这些我一直左耳进右耳出,李老师是我的救星,一下就看懂了

  • @mengyuge3369
    @mengyuge3369 4 месяца назад +5

    大爱李老师,我现在工作了,但是还是爱听老师讲课

  • @danpoo007
    @danpoo007 5 месяцев назад +5

    謝謝老師~趕緊配午餐看XD

  • @fortunaarcheryn6365
    @fortunaarcheryn6365 4 месяца назад +2

    这支影片讲得不错,终于明白了nn和transformer和attention的亿点点关系

  • @810602jay
    @810602jay 5 месяцев назад +1

    輸入的文字長度不一定,之後長度也會越來越長 (auto-regressive),所以 Input Layer 餵進去的 token 長度是可變的嗎?

  • @xaviertsai4063
    @xaviertsai4063 4 месяца назад +2

    上課啦~開始進入需要長考的內容了😢

  • @jiayizhang7406
    @jiayizhang7406 Месяц назад +1

    说真的,其实懂得transformer的同学也很值得再听一听,还是蛮有收获的

  • @philyu1117
    @philyu1117 4 месяца назад +1

    感謝老師講解,想請教在理解每個Token位置做Positional embedding時是根據token在句子不同位置的不同意思做embedding嗎?這時候不會有attention考慮上下文嗎?

    • @allenchen8559
      @allenchen8559 3 месяца назад +1

      應該不是,positional embedding 是token embedding 送進 attention 前,各個位子加一個自己位子的向量(影片提到向量以前自己設,後來交給模型train),跟字意無關,也跟上下文無關,只跟自己所在位子有關,因此像個position 的標記。

    • @philyu1117
      @philyu1117 3 месяца назад +1

      @@allenchen8559 謝謝!

  • @FriedmanStepthen
    @FriedmanStepthen Месяц назад

    想要請教老師一個問題,一個embedding和自己計算相關性時會得到什麼?我看到ppt上兩個例子,一個得到0.5,一個得到0.3

  • @蔡文嘉-i4z
    @蔡文嘉-i4z 5 месяцев назад +3

    感謝老師的更新❤

  • @wc2091
    @wc2091 3 месяца назад +1

    老師的影片常常和過去的影片attention

  • @XDwang-t9s
    @XDwang-t9s 3 месяца назад +1

    深入浅出,而且都是前沿知识,非常有价值。

  • @Joseph_Lan
    @Joseph_Lan 2 месяца назад

    請問教授, 您說每一個token對應的向量就是語言模型的參數, 那如果GPT3 參數是175B, 那每個Token經過embedding 程序就會形成175B x 1 的矩陣(向量)嗎? 先謝謝教授的回答

    • @colafish2152
      @colafish2152 2 месяца назад +1

      GPT3的参数是175B,这个175B参数可能是计算多头attention时候的权重,还有feed forward神经网络的参数,两部分参数的和。而做Token的embedding时候,得到表示token语意的向量的时候,这个向量的长度不是175B,而是一个可能数值为几千,或者1万多的数字。这是我在学习transformer架构时的一些理解,也不能保证正确性。

  • @kyc1109tw
    @kyc1109tw 3 месяца назад

    Attention 會不會是因為文字是從左到右讀,所以只著重在左邊,因為右邊反而詞不達意。

  • @fanwu-kd1nr
    @fanwu-kd1nr 5 месяцев назад +1

    老师这个 “如何快速进行attention”的视频在哪看?链接好像挂了

    • @HungyiLeeNTU
      @HungyiLeeNTU  4 месяца назад +1

      在這裡: ruclips.net/video/yHoAq1IT_og/видео.htmlsi=2ZqqelyCYrt8l7DT

  • @dxwinux
    @dxwinux 5 месяцев назад

    反复思考(transformer block层数)这个过程的(固定)次数背后的现在的思考是什么呢?为什么不是类似于pagerank,说你看,我继续思考已经不产生新的significant的思路了,咱们可以停止思考了。。。

  • @葉鴻-x8b
    @葉鴻-x8b 4 месяца назад

    沒有考慮到rwkv的架構比Mamba更準確也在不斷地迭代中

  • @Terry0319
    @Terry0319 4 месяца назад +1

    謝謝老師

  • @Patricia_Liu
    @Patricia_Liu 5 месяцев назад +1

    謝謝老師!

  • @xinzheng2757
    @xinzheng2757 2 месяца назад +1

    真是AI高手与良师

  • @Harvey-ov3pe
    @Harvey-ov3pe 4 месяца назад +1

    谢谢老师!介绍得太清晰了

  • @JiangwenQvQ
    @JiangwenQvQ 5 месяцев назад +1

    每一节课都在追

  • @lucas_shao
    @lucas_shao 2 месяца назад

    李老师你好,真的觉得您上课的风格非常棒,通俗易懂

  • @fanwu-kd1nr
    @fanwu-kd1nr 5 месяцев назад +1

    老师什么时候讲讲mamba\jamba

    • @gilberthsu6306
      @gilberthsu6306 4 месяца назад +1

      mamba out了

    • @fanwu-kd1nr
      @fanwu-kd1nr 3 месяца назад +1

      @@gilberthsu6306 really?

    • @waynechuang8072
      @waynechuang8072 Месяц назад

      I think mamba is still a promising model architecture. As shown in the latest Kaggle competition Leap, one of the top solutions uses mamba as the base model.

  • @wengweng-h4m
    @wengweng-h4m 4 месяца назад

    为什么要这样拆

  • @wengweng-h4m
    @wengweng-h4m 4 месяца назад

    😂ye s

  • @郭书勤
    @郭书勤 5 месяцев назад +2

    第一

  • @dashunwang6267
    @dashunwang6267 5 месяцев назад +1

    老师能不能讲下RWKV 哈哈 😊

  • @k3el07
    @k3el07 5 месяцев назад

    我觉得这些网民经常把自己放在警察、法官和裁判的角色,甚至是村头大妈的角色。这个悲伤的故事其实就是因为意外的疾病导致的灾难而已。如果不是这样,他们也是和美幸福的一家人。夫妻同命鸟,所有的幸福和灾难都是两个人一起承担的。人家自己没有意见别人根本没有任何立场胡乱评判的。