【生成式AI導論 2024】第10講：今日的語言模型是如何做文字接龍的 - 淺談Transformer (已經熟悉 Transformer 的同學可略過本講)

Hung-yi Lee

Просмотров 36 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 1 окт 2024
投影片：drive.google.c...
為了能讓第一次學習Transformer的同學可以更容易了解其內容，本課程對 Transformer 的說明進行了部分簡化
19:10 計算關聯性的模型內部運作如下：先把兩個輸入分別乘上兩個不同的 Matrix (這兩個 Matrix 是透過訓練資料學得) 得到兩個向量 (也就是得到文獻上常常提到的 query q 和 key k)，再把這兩個向量做內積得到 Attention Weight
20:40 此處省略了文獻上常常提到的 value v
22:30 根據上述Attention Weight的計算過程，Attention Matrix 不一定是對稱的，自己對自己做 Attention 算出來的 Attention Weight 也不一定是最高的
23:00 因為 Causal Attention 的原因，Attention Matrix 其實是一個 Triangular Matrix
延伸閱讀
• 【機器學習2021】Transformer (上)
• 【機器學習2021】Transformer (下)

Комментарии • 41

@sunnynie4290 5 месяцев назад ⁺³⁴
您真是天生的好老师，我一直没换台，居然能听得津津有味
@hankdonald7812 4 месяца назад ⁺¹⁴
0:40 大语言模型所做的事情，就是文字接龙
3:15 大语言模型所用类神经网络之一Transformer概述
4:53 1，Tokenization 文字转为Token
9:18 2，Input Layer 理解Token，该阶段会将Token转为Vector(Embedding)，LLM并不理解单纯的Token的意思，而可以理解每个Embedding的意思。Positional Embedding是加了位置信息的Embedding。
15:47 3，Attention 理解上下文，将Positional Embedding转为 Contextualized Token Embedding。
26:02 4，Feed Forward 整合、思考
28:07 5，Output Layer 得到输出
29:01 大语言模型运作过程，chatGPT只考虑左边已经输入的文字，无需考虑右边文字。
33:16 为什么处理超长文本是挑战，因为计算Attention的次数是与文本长度的平方成正比的，所以增加文本长度后，计算量的增加是非常大的。
@NickHuang 5 месяцев назад ⁺¹⁰
謝謝老師分享，很棒的教程和內容，很喜歡說明的條理和安排方式。
@HungHsunHuang 5 месяцев назад ⁺⁷
想請問老師，BERT的"Bidirectional"，是否可以理解為 "會判斷token以及其右邊(下文)相關性" 的attention模組呢?
@deskeyi 5 месяцев назад ⁺⁷
本來就是這個意思，這是BERT和GPT的主要區別之一
@XChloeC Месяц назад ⁺²
用英语学这些我一直左耳进右耳出，李老师是我的救星，一下就看懂了
@mengyuge3369 4 месяца назад ⁺⁵
大爱李老师，我现在工作了，但是还是爱听老师讲课
@danpoo007 5 месяцев назад ⁺⁵
謝謝老師~趕緊配午餐看XD
@fortunaarcheryn6365 4 месяца назад ⁺²
这支影片讲得不错，终于明白了nn和transformer和attention的亿点点关系
@810602jay 5 месяцев назад ⁺¹
輸入的文字長度不一定，之後長度也會越來越長 (auto-regressive)，所以 Input Layer 餵進去的 token 長度是可變的嗎?
@xaviertsai4063 4 месяца назад ⁺²
上課啦～開始進入需要長考的內容了😢
@jiayizhang7406 Месяц назад ⁺¹
说真的，其实懂得transformer的同学也很值得再听一听，还是蛮有收获的
@philyu1117 4 месяца назад ⁺¹
感謝老師講解，想請教在理解每個Token位置做Positional embedding時是根據token在句子不同位置的不同意思做embedding嗎？這時候不會有attention考慮上下文嗎？
@allenchen8559 3 месяца назад ⁺¹
應該不是，positional embedding 是token embedding 送進 attention 前，各個位子加一個自己位子的向量（影片提到向量以前自己設，後來交給模型train），跟字意無關，也跟上下文無關，只跟自己所在位子有關，因此像個position 的標記。
@philyu1117 3 месяца назад ⁺¹
@@allenchen8559 謝謝！
@FriedmanStepthen Месяц назад
想要請教老師一個問題，一個embedding和自己計算相關性時會得到什麼？我看到ppt上兩個例子，一個得到0.5，一個得到0.3
@蔡文嘉-i4z 5 месяцев назад ⁺³
感謝老師的更新❤
@wc2091 3 месяца назад ⁺¹
老師的影片常常和過去的影片attention
@XDwang-t9s 3 месяца назад ⁺¹
深入浅出，而且都是前沿知识，非常有价值。
@Joseph_Lan 2 месяца назад
請問教授, 您說每一個token對應的向量就是語言模型的參數, 那如果GPT3 參數是175B, 那每個Token經過embedding 程序就會形成175B x 1 的矩陣(向量)嗎? 先謝謝教授的回答
@colafish2152 2 месяца назад ⁺¹
GPT3的参数是175B，这个175B参数可能是计算多头attention时候的权重，还有feed forward神经网络的参数，两部分参数的和。而做Token的embedding时候，得到表示token语意的向量的时候，这个向量的长度不是175B，而是一个可能数值为几千，或者1万多的数字。这是我在学习transformer架构时的一些理解，也不能保证正确性。
@kyc1109tw 3 месяца назад
Attention 會不會是因為文字是從左到右讀，所以只著重在左邊，因為右邊反而詞不達意。
@fanwu-kd1nr 5 месяцев назад ⁺¹
老师这个 “如何快速进行attention”的视频在哪看？链接好像挂了
@HungyiLeeNTU 4 месяца назад ⁺¹
在這裡: ruclips.net/video/yHoAq1IT_og/видео.htmlsi=2ZqqelyCYrt8l7DT
@dxwinux 5 месяцев назад
反复思考（transformer block层数）这个过程的（固定）次数背后的现在的思考是什么呢？为什么不是类似于pagerank，说你看，我继续思考已经不产生新的significant的思路了，咱们可以停止思考了。。。
@葉鴻-x8b 4 месяца назад
沒有考慮到rwkv的架構比Mamba更準確也在不斷地迭代中
@Terry0319 4 месяца назад ⁺¹
謝謝老師
@Patricia_Liu 5 месяцев назад ⁺¹
謝謝老師!
@xinzheng2757 2 месяца назад ⁺¹
真是AI高手与良师
@Harvey-ov3pe 4 месяца назад ⁺¹
谢谢老师！介绍得太清晰了
@JiangwenQvQ 5 месяцев назад ⁺¹
每一节课都在追
@lucas_shao 2 месяца назад
李老师你好，真的觉得您上课的风格非常棒，通俗易懂
@fanwu-kd1nr 5 месяцев назад ⁺¹
老师什么时候讲讲mamba\jamba
@gilberthsu6306 4 месяца назад ⁺¹
mamba out了
@fanwu-kd1nr 3 месяца назад ⁺¹
@@gilberthsu6306 really?
@waynechuang8072 Месяц назад
I think mamba is still a promising model architecture. As shown in the latest Kaggle competition Leap, one of the top solutions uses mamba as the base model.
@wengweng-h4m 4 месяца назад
为什么要这样拆
@wengweng-h4m 4 месяца назад
😂ye s
@郭书勤 5 месяцев назад ⁺²
第一
@dashunwang6267 5 месяцев назад ⁺¹
老师能不能讲下RWKV 哈哈 😊
@k3el07 5 месяцев назад
我觉得这些网民经常把自己放在警察、法官和裁判的角色，甚至是村头大妈的角色。这个悲伤的故事其实就是因为意外的疾病导致的灾难而已。如果不是这样，他们也是和美幸福的一家人。夫妻同命鸟，所有的幸福和灾难都是两个人一起承担的。人家自己没有意见别人根本没有任何立场胡乱评判的。

Следующие

Автовоспроизведение

【生成式AI導論 2024】第11講：大型語言模型在「想」什麼呢？ - 淺談大型語言模型的可解釋性