Transformer

Hung-yi Lee

Просмотров 203 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 15 сен 2024

Комментарии • 142

@amoshuangyc 5 лет назад ⁺⁶²
講得太好了！網上的文章怎麼看都看不懂，現在終於讓我搞懂 self attention 在做什麼了
@fissyercJ 5 лет назад ⁺³²
老師的課程很棒，很幽默也一直有在更新新的model，非常喜歡老師的課程。
@yufan2148 5 лет назад ⁺⁵⁷
7:58 Self-attention
27:57 Positional Encoding
37:25 Transformer
@hudsonvan4322 4 года назад ⁺¹⁰
5:32 這邊應該是指CNN 但口誤講成RNN
@ipodyy6744 3 года назад ⁺¹
李老师讲的seq2seq model的链接能给一个吗？
@abc123634 5 лет назад ⁺²¹
等老師介紹 Transformer 的影片等幾個月了，實在實在是太棒了🌟
@abc123634 5 лет назад ⁺¹⁶
如果你看完教授的影片覺得手癢想要動手實作，可以參考這篇文章：leemeng.tw/neural-machine-translation-with-transformer-and-tensorflow2.html
@JohnSun-rt6qb 4 года назад ⁺²
@@abc123634 感謝分享，也覺得您的文章非常精實，獲益良多~
@timehsw7277 4 года назад ⁺¹
@@abc123634 写得很棒，获益颇多，谢谢！
@jasonchen8486 2 года назад ⁺²
Bert 是芝麻街裡的一個人物/玩偶!! 🙂早期台灣電視有芝麻街, 現在台灣人大概都不知道了, 但在美國大概沒有人不知道Bert這個人物. 在NLP領域近年很有名的 BERT and ELMo 都跟芝麻街的兩個知名玩偶同名
@blchen1 2 года назад ⁺²
谢谢李老师的精彩讲解！提纲挈领、深入浅出，令人受益匪浅！
@JoeL-fb2gw 5 лет назад ⁺⁶
专门注册一个账号来感谢老师
讲的很好，非常感谢！
@Geeker_LStar 3 месяца назад ⁺¹
Aaaaa 全网最最最最最好的视频!!!! 谢谢老师!!!!!
@王子健-u9u 3 года назад ⁺¹
天涯若毗邻，这个比喻真的好形象啊，而且直接回应了LSTM的缺陷
@jxm8944 5 лет назад ⁺²
李先生好！Transformer 模型/原理的解析：用于机器翻译任务，表现极好且可并行化，大大减少训练时间。点赞！ 🌹
@ritaxu7934 4 месяца назад
感谢老师！终于懂了为什么positional embedding可以直接加上来
@muhammadsaadmansoor7777 3 года назад ⁺¹
I not only understood transformers but I also learned Chinese from this video
@chengliu3033 5 месяцев назад
老师讲的非常好，收获很大，感谢李教授
@jason81112 5 лет назад ⁺⁴
感謝老師解答不然原論文內h=8那邊我一直一頭霧水
我原本還在猜想是不是有維度考量拆成8份來降為之類的
畢竟O^2*d 的確挺大的
另外我覺得後面self attention gan那邊
其實non-local network那個例子比較好XD
SAGAN相對non-local來說寫得比較隨意
non-local那邊有一些思想上的闡述~
@xchrisliu 9 месяцев назад ⁺¹
之前读Transformer的文章，都会提到李老师的这个视频，今天看了一下真的是名不虚传，很多我之前有疑问的地方都被解答了
@honlin-z2g 2 месяца назад ⁺¹
I realized that the factor "d^(1/2)" doesn't have anything to do with final weights, since it's constant ( or say fair to any dot product) , that means it may change the distribution, but without order
@li-pingho1441 Год назад ⁺²
真的講超好......沒有李教授的線上課一堆研究生真的完蛋
@chanvincent9812 4 года назад
前后看了好几遍，终于是看懂了，心情都舒畅了很多，感谢李老师
@gphonebeta 4 года назад ⁺³³
这个是全网讲transformer最好的视频，还是中文的，爱死李宏毅老师了。
@midijean2291 5 лет назад ⁺⁵
老师讲的真是太好了！看完了再去看paper就好读太多了！
@youzhongwang3647 3 года назад ⁺³
谢谢李老师！请问一下在decoder的时候，因为只能用output左边的部分做attention，那么在train decoder的时候还是in parallel的吗？如果是，请问有没有详细一点的介绍是怎么实现的？谢谢！
@wolfmib 4 года назад ⁺⁴
for 13:20:
we could consider two Vector with D dimension :
1. When doing the inner product of the vector pairs , we can think :
___ the same vector with different dimension shall meet equal relationship as we expected:___
such as A(1,1,1), with B(1,1,1) D=3
a(1,1,1,1) with b (1,1,1,1) , D = 4
This two pair of vector (A,B ) , (a,b) shall has the same attention value:
So take the inner product for both of two paris:
A * B = 3
a * b = 4
and we found 3 != 4, so we divide by the square of the dimension:
A*B / sqrt(3) = 3 / 1.7320 ~ 1.7320
a* b / sqrt(4) = 4 / 2 ~ 2
by this approximate : indeed, A*B is closer to a*b (even it's not exactly equal) , but it definitely is a better solution instead of taking the inner product without divide anything.
@zechenliu5760 10 месяцев назад
按这种解释的话，直接除以D不就好了？为什么要除以根号D?
@user-gf5yn5hm7n 5 лет назад ⁺³
感谢李老师的付出，可以看出做这些PPT需要许多的精力！这比看原论文舒服多了
@peace3524 2 года назад ⁺²
老師的課程真的是福音😆
@stoneshou 4 года назад ⁺¹
非常感谢！有个小建议，右下角的水印有时会挡到内容，不知道有没有可能把水印或者挡住的部分分开
@taiwanest 5 лет назад ⁺¹
如此清晰透側的教學，令人驚嘆！
@cgqqqq 3 года назад ⁺²
厉害，太多的视频要么是烂大街的high level，和你泛泛而谈attention有什么特点，要么是low level，xx软件工程师一上来就是矩阵运算各种工程code，只会写代码也不知道为什么要这么弄，李教授的视频能把high level和low level都串联到了，让人知其然知其所以然，这个是真的厉害，感谢！
@jackdawson2870 9 месяцев назад ⁺¹
牛逼，还有informer
@alexanderyau6347 4 года назад
太棒了，讲的非常好！非常清晰透彻！感谢李教授！
@user-nl8pb1nb1u 9 месяцев назад
不爱学习的人也看下来了，好像脱口秀，感谢李老师的幽默！
@lixunxie6195 4 года назад ⁺¹
讲的很好，谢谢李老师的讲解
@htai7163 3 года назад ⁺¹
深入简出，讲的太好了。
@jackdawson2870 9 месяцев назад ⁺¹
seq to seq已经被transformer洗过一轮了，真实
@zmario8605 4 года назад ⁺³
I have never seen such a great course video！ Thank you very much
@guang-yanzhang6122 5 лет назад
李老师的思维非常的清晰，富有条理性
@sollunaliu7133 3 года назад
史上最强transfermer视频讲解，支持老师～
@haoyundeng1498 2 года назад ⁺¹
我有两个问题 1. 整个模型中的所有参数，包括W_Q, W_K, W_V，以及dense layer参数，softmax参数等等都是在最后翻译完成之后用cross entropy loss来一起train的吗，还是把W矩阵提前train好再拿来计算train其他参数？2. multi head的情况，怎么样获得不同的W_Q, W_K, W_V呢？既然我有一个“最好”的W矩阵来反应输入各个单词之间的关系，怎么还要不同的呢？有怎么保证它们不同？
@mengyuge3369 3 года назад
Thank you very much. Great video
@talkshuo7866 4 года назад ⁺³
泪目！感谢老师！！
@jamgplus334 3 года назад
天涯若比邻,这句绝了
@noahxu4647 4 года назад
谢谢李老师的分享，讲的非常的详细
@tianyuwang5827 3 года назад
44:07, 关于"it"对于其他词的attention我有点不懂。比如计算“it”到“animal”的attention，按照之前的计算方式，结果应该只和“it”的 query vector 以及"animal"的 key vector 有关，为什么不相关的“wide”会影响到这两个词之间的attention呢？
@zdx4571 9 месяцев назад
谢谢老师让我了解新知识~
@haoteli2122 3 года назад ⁺¹
老师讲得太好了，我都tm庆幸母语是中文
@LiangyueLi 5 лет назад ⁺⁵
讲得最清晰的影像了
@StevenLiuX 4 года назад
感谢老师! 终于看懂了恨不能多点几个赞!
@osmanjant 5 лет назад
You are aswesome teacher. Don't stop uploading new videos. Thanks.
@vincentyang8393 Год назад
Great talk! thanks
@kunhongyu5702 4 года назад ⁺¹
牛逼，最清晰
@shencunzailaozhang 5 лет назад ⁺¹
老师很准时，谢谢您辛苦的付出。
@user-saint 2 месяца назад
受益良多，感謝老師
@孤城-o3c 2 года назад
老师讲的真好
@lucywang8643 3 года назад ⁺¹
did such a great job in explaining! Thank you!
@walynlee2653 3 года назад
Great! Would you mind sharing the powerpoint with everyone?
@JohnNeo Год назад
讲得很清楚👍
@mao1mao Год назад
那几个q\k\v的原理我不太明白，每个字都有自己的q，跟其他字的k的相似度代表了attention，然后再乘上对方的v。这整套的逻辑是啥呢？
以及生成q\k\v的几个矩阵为啥是不同字符间通用的呢？
@gladstoneclairet1499 4 года назад ⁺¹
学习怎么能这么开心～！！！
@旅行者-z5o 2 месяца назад
其实可以考虑放在bilibili上，没有广告。。
@allenlai9954 5 лет назад
謝謝老師講解的非常清楚
@inaqingww 3 года назад
怎么会有这么棒的老师，我真是幸运啊！！
@zhiminli4225 2 года назад
讲的太棒了！
@heqiaoruan5166 3 года назад
这个老师讲的太赞了 👍
@ethaneaston6443 Год назад
老师可以讲一下Unet吗？现在的diffusion代码实现中的Unet结构，其中的Unet用了attention和position embedding两个模块。没理解attention和position embedding两个模块怎么处理图像的
@justinzhang1323 3 года назад
老师讲得太好了！
@weihuang743 3 года назад
很详细，很清晰，很赞
@xiangsong8942 3 года назад ⁺¹
全网最佳
@JirongYi 2 года назад
At 40:03, is b=[b^1; b^2;...;b^4] or b is one of b^1, b^2, b^3, and b^4?
@bobchen2817 4 года назад ⁺¹
😭，讲得太好了，找了好多材料~~
@张喜-i4x 4 года назад
非常好，感谢
@beandog5445 5 лет назад ⁺¹
you save my ass
@fionafan8267 3 года назад ⁺¹
想請問老師, 那麼 W_Q, W_K, W_V 是怎麼確定的呢?
@weikaichen546 6 дней назад
有一个问题不是很懂，35:55 处谷歌的动画显示，decoding的时候当前的输出是依赖于之前的输出的，那为什么李老师说b1到b4是并行同时生成的？有谁能解释一下？谢谢！@Hung-yi Lee
@weikaichen546 6 дней назад
我大概想通了，应该是self attention理论上就是可以并行地生成所有的输出，但是test time的时候还是需要sequential地生成，因为没有前文不可能有后语。因此，训练的时候需要用masked multi-head attention把后面的信息遮挡掉
@yanfeizhang3580 Год назад
老师，请问masked multi-head attention能做一个解释吗？不太理解这个机制
@卢伟-h1u 2 месяца назад
英语不太好，老师说的搭啪搭是dot product 么？没有恶意呦
@gourmetdata971 4 года назад
有一个问题：positional encoding 应该是直接加上去而不是concatenate吧。原文是：The positional encodings have the same dimension d_model as the embeddings, so that the two can be summed
@gourmetdata971 4 года назад ⁺¹
现在明白了, W_I是word embedding matrix，而W_P是positional embedding matrix。所以ppt里是正确的。
@HungyiLeeNTU 4 года назад
@@gourmetdata971 沒錯 :)
@youngandy6161 Год назад
@@gourmetdata971 开始我也没理解这块，看到你的评论我也明白了，李老师将矩阵下移是换了另一种说法，和原文中是一个效果。感谢
@grownupgaming Год назад
26:40 Is the head-split happening at ai? or at qi/ki/vi?
@xiuxiu0801 3 года назад ⁺¹
我竟然看懂了。。。。要哭了
@东方神剑-z4r 5 лет назад ⁺²
课程很棒，请问老师后面会有 BERT 的讲解吗
@HungyiLeeNTU 5 лет назад ⁺⁶
會有的
@aaronsarinana1654 2 года назад
It would be nice to have sub-titles!
@商智洲 3 года назад
给力
@王毓华-h2i 3 года назад
41.40的时候，老师说：这个decoder的input是前一个（）所产生的output，括号里说的那个英文单词是什么？tai side怪怪的，没听懂。求助一下。
@stanley9534 3 года назад
timestamp
@xiangliu2767 6 месяцев назад
这个encode 和decode动画哪里可以看到，地址是什么
@weiranhuang3939 4 года назад ⁺²
就因为叫Transformer就把这个影片分类为“汽车”吗
@mogazheng 6 месяцев назад
每一个Wq，Wk，Wv，是不是都是一样的呢，还是说有Wq1，Wq2，Wq3....Wqi呢
@haonanchen193 4 года назад
弘毅老师讲的太好了，感谢资源
@jllee5374 4 года назад
講的太好了，沒有比李老師講的更好的了。李宏毅老師了不起呀。
@edisonge9311 4 года назад
很棒~
@yanliuwang3079 5 лет назад
谢谢宏毅老师~
@beizhou2488 5 лет назад ⁺¹
李老师，您好。self-attention现在已经有慢慢取代LSTM的趋势了么？
@AIPlayerrrr 4 года назад
现在已经完全取代啦。
@haomayor6306 3 года назад
跪谢李宏毅老师
@rahmanjalayer7389 4 года назад ⁺²
Dear Lee, I wonder if you have this class in English?
@jiabaowen5059 4 года назад
太强了
@jasonwu8166 4 года назад
谢谢老师的讲解！有个问题，为什么RNN不能够像self attention一样做到平行计算？
@user-tb1vb7rn8t 4 года назад
因為RNN的算法，它會依序計算一句話的每個字，每個字又要有前一個字的hidden變量才能計算。
@Natural_Motion 8 месяцев назад
请教下W矩阵怎么理解的呢？
@song4015 4 месяца назад
哪里可以下载这个PPT啊，这个可是全网讲的最清楚的了
@player-eric 4 года назад
请问一下，W^q的权值是共享的吗？
@mitddxia4799 3 года назад
第33分钟左右的矩阵分块有点问题，结果不是直接相加，而是上下的关系才对
@旅行者-z5o 2 месяца назад
最后讲的怎么有点像RAG
@foxtimer16 9 месяцев назад
关于Add&Norm那段真的没有听懂
@jasonz3512 3 года назад ⁺¹
华语之光，反观大陆没有这样开放牛皮的

Следующие

Автовоспроизведение