Transformer

Поделиться
HTML-код
  • Опубликовано: 15 сен 2024

Комментарии • 142

  • @amoshuangyc
    @amoshuangyc 5 лет назад +62

    講得太好了!網上的文章怎麼看都看不懂,現在終於讓我搞懂 self attention 在做什麼了

  • @fissyercJ
    @fissyercJ 5 лет назад +32

    老師的課程很棒,很幽默也一直有在更新新的model,非常喜歡老師的課程。

  • @yufan2148
    @yufan2148 5 лет назад +57

    7:58 Self-attention
    27:57 Positional Encoding
    37:25 Transformer

    • @hudsonvan4322
      @hudsonvan4322 4 года назад +10

      5:32 這邊應該是指CNN 但口誤講成RNN

    • @ipodyy6744
      @ipodyy6744 3 года назад +1

      李老师讲的seq2seq model的链接能给一个吗?

  • @abc123634
    @abc123634 5 лет назад +21

    等老師介紹 Transformer 的影片等幾個月了,實在實在是太棒了🌟

    • @abc123634
      @abc123634 5 лет назад +16

      如果你看完教授的影片覺得手癢想要動手實作,可以參考這篇文章:leemeng.tw/neural-machine-translation-with-transformer-and-tensorflow2.html

    • @JohnSun-rt6qb
      @JohnSun-rt6qb 4 года назад +2

      @@abc123634 感謝分享,也覺得您的文章非常精實,獲益良多~

    • @timehsw7277
      @timehsw7277 4 года назад +1

      @@abc123634 写得很棒,获益颇多,谢谢!

  • @jasonchen8486
    @jasonchen8486 2 года назад +2

    Bert 是芝麻街裡的一個人物/玩偶!! 🙂早期台灣電視有芝麻街, 現在台灣人大概都不知道了, 但在美國大概沒有人不知道Bert這個人物. 在NLP領域近年很有名的 BERT and ELMo 都跟芝麻街的兩個知名玩偶同名

  • @blchen1
    @blchen1 2 года назад +2

    谢谢李老师的精彩讲解!提纲挈领、深入浅出,令人受益匪浅!

  • @JoeL-fb2gw
    @JoeL-fb2gw 5 лет назад +6

    专门注册一个账号来感谢老师
    讲的很好,非常感谢!

  • @Geeker_LStar
    @Geeker_LStar 3 месяца назад +1

    Aaaaa 全网最最最最最好的视频!!!! 谢谢老师!!!!!

  • @王子健-u9u
    @王子健-u9u 3 года назад +1

    天涯若毗邻,这个比喻真的好形象啊,而且直接回应了LSTM的缺陷

  • @jxm8944
    @jxm8944 5 лет назад +2

    李先生好!Transformer 模型/原理的解析:用于机器翻译任务,表现极好且可并行化,大大减少训练时间。 点赞! 🌹

  • @ritaxu7934
    @ritaxu7934 4 месяца назад

    感谢老师!终于懂了为什么positional embedding可以直接加上来

  • @muhammadsaadmansoor7777
    @muhammadsaadmansoor7777 3 года назад +1

    I not only understood transformers but I also learned Chinese from this video

  • @chengliu3033
    @chengliu3033 5 месяцев назад

    老师讲的非常好,收获很大,感谢李教授

  • @jason81112
    @jason81112 5 лет назад +4

    感謝老師解答 不然原論文內h=8那邊我一直一頭霧水
    我原本還在猜想是不是有維度考量拆成8份來降為之類的
    畢竟O^2*d 的確挺大的
    另外我覺得後面self attention gan那邊
    其實non-local network那個例子比較好XD
    SAGAN相對non-local來說寫得比較隨意
    non-local那邊有一些思想上的闡述~

  • @xchrisliu
    @xchrisliu 9 месяцев назад +1

    之前读Transformer的文章,都会提到李老师的这个视频,今天看了一下真的是名不虚传,很多我之前有疑问的地方都被解答了

  • @honlin-z2g
    @honlin-z2g 2 месяца назад +1

    I realized that the factor "d^(1/2)" doesn't have anything to do with final weights, since it's constant ( or say fair to any dot product) , that means it may change the distribution, but without order

  • @li-pingho1441
    @li-pingho1441 Год назад +2

    真的講超好......沒有李教授的線上課 一堆研究生真的完蛋

  • @chanvincent9812
    @chanvincent9812 4 года назад

    前后看了好几遍,终于是看懂了,心情都舒畅了很多,感谢李老师

  • @gphonebeta
    @gphonebeta 4 года назад +33

    这个是全网讲transformer最好的视频,还是中文的,爱死李宏毅老师了。

  • @midijean2291
    @midijean2291 5 лет назад +5

    老师讲的真是太好了!看完了再去看paper就好读太多了!

  • @youzhongwang3647
    @youzhongwang3647 3 года назад +3

    谢谢李老师!请问一下在decoder的时候,因为只能用output左边的部分做attention,那么在train decoder的时候还是in parallel的吗?如果是,请问有没有详细一点的介绍是怎么实现的?谢谢!

  • @wolfmib
    @wolfmib 4 года назад +4

    for 13:20:
    we could consider two Vector with D dimension :
    1. When doing the inner product of the vector pairs , we can think :
    ___ the same vector with different dimension shall meet equal relationship as we expected:___
    such as A(1,1,1), with B(1,1,1) D=3
    a(1,1,1,1) with b (1,1,1,1) , D = 4
    This two pair of vector (A,B ) , (a,b) shall has the same attention value:
    So take the inner product for both of two paris:
    A * B = 3
    a * b = 4
    and we found 3 != 4, so we divide by the square of the dimension:
    A*B / sqrt(3) = 3 / 1.7320 ~ 1.7320
    a* b / sqrt(4) = 4 / 2 ~ 2
    by this approximate : indeed, A*B is closer to a*b (even it's not exactly equal) , but it definitely is a better solution instead of taking the inner product without divide anything.

    • @zechenliu5760
      @zechenliu5760 10 месяцев назад

      按这种解释的话,直接除以D不就好了?为什么要除以根号D?

  • @user-gf5yn5hm7n
    @user-gf5yn5hm7n 5 лет назад +3

    感谢李老师的付出,可以看出做这些PPT需要许多的精力!这比看原论文舒服多了

  • @peace3524
    @peace3524 2 года назад +2

    老師的課程真的是福音😆

  • @stoneshou
    @stoneshou 4 года назад +1

    非常感谢! 有个小建议,右下角的水印有时会挡到内容,不知道有没有可能把水印或者挡住的部分分开

  • @taiwanest
    @taiwanest 5 лет назад +1

    如此清晰透側的教學,令人驚嘆!

  • @cgqqqq
    @cgqqqq 3 года назад +2

    厉害,太多的视频要么是烂大街的high level,和你泛泛而谈attention有什么特点,要么是low level,xx软件工程师一上来就是矩阵运算各种工程code,只会写代码也不知道为什么要这么弄,李教授的视频能把high level和low level都串联到了,让人知其然知其所以然,这个是真的厉害,感谢!

  • @jackdawson2870
    @jackdawson2870 9 месяцев назад +1

    牛逼,还有informer

  • @alexanderyau6347
    @alexanderyau6347 4 года назад

    太棒了,讲的非常好!非常清晰透彻!感谢李教授!

  • @user-nl8pb1nb1u
    @user-nl8pb1nb1u 9 месяцев назад

    不爱学习的人也看下来了,好像脱口秀,感谢李老师的幽默!

  • @lixunxie6195
    @lixunxie6195 4 года назад +1

    讲的很好,谢谢李老师的讲解

  • @htai7163
    @htai7163 3 года назад +1

    深入简出,讲的太好了。

  • @jackdawson2870
    @jackdawson2870 9 месяцев назад +1

    seq to seq已经被transformer洗过一轮了,真实

  • @zmario8605
    @zmario8605 4 года назад +3

    I have never seen such a great course video! Thank you very much

  • @guang-yanzhang6122
    @guang-yanzhang6122 5 лет назад

    李老师的思维非常的清晰,富有条理性

  • @sollunaliu7133
    @sollunaliu7133 3 года назад

    史上最强transfermer视频讲解,支持老师~

  • @haoyundeng1498
    @haoyundeng1498 2 года назад +1

    我有两个问题 1. 整个模型中的所有参数,包括W_Q, W_K, W_V,以及dense layer参数,softmax参数等等都是在最后翻译完成之后用cross entropy loss来一起train的吗,还是把W矩阵提前train好再拿来计算train其他参数?2. multi head的情况,怎么样获得不同的W_Q, W_K, W_V呢?既然我有一个“最好”的W矩阵来反应输入各个单词之间的关系,怎么还要不同的呢?有怎么保证它们不同?

  • @mengyuge3369
    @mengyuge3369 3 года назад

    Thank you very much. Great video

  • @talkshuo7866
    @talkshuo7866 4 года назад +3

    泪目!感谢老师!!

  • @jamgplus334
    @jamgplus334 3 года назад

    天涯若比邻,这句绝了

  • @noahxu4647
    @noahxu4647 4 года назад

    谢谢李老师的分享,讲的非常的详细

  • @tianyuwang5827
    @tianyuwang5827 3 года назад

    44:07, 关于"it"对于其他词的attention我有点不懂。比如计算“it”到“animal”的attention,按照之前的计算方式,结果应该只和“it”的 query vector 以及"animal"的 key vector 有关,为什么不相关的“wide”会影响到这两个词之间的attention呢?

  • @zdx4571
    @zdx4571 9 месяцев назад

    谢谢老师让我了解新知识~

  • @haoteli2122
    @haoteli2122 3 года назад +1

    老师讲得太好了,我都tm庆幸母语是中文

  • @LiangyueLi
    @LiangyueLi 5 лет назад +5

    讲得最清晰的影像了

  • @StevenLiuX
    @StevenLiuX 4 года назад

    感谢老师! 终于看懂了 恨不能多点几个赞!

  • @osmanjant
    @osmanjant 5 лет назад

    You are aswesome teacher. Don't stop uploading new videos. Thanks.

  • @vincentyang8393
    @vincentyang8393 Год назад

    Great talk! thanks

  • @kunhongyu5702
    @kunhongyu5702 4 года назад +1

    牛逼,最清晰

  • @shencunzailaozhang
    @shencunzailaozhang 5 лет назад +1

    老师很准时,谢谢您辛苦的付出。

  • @user-saint
    @user-saint 2 месяца назад

    受益良多,感謝老師

  • @孤城-o3c
    @孤城-o3c 2 года назад

    老师讲的真好

  • @lucywang8643
    @lucywang8643 3 года назад +1

    did such a great job in explaining! Thank you!

  • @walynlee2653
    @walynlee2653 3 года назад

    Great! Would you mind sharing the powerpoint with everyone?

  • @JohnNeo
    @JohnNeo Год назад

    讲得很清楚👍

  • @mao1mao
    @mao1mao Год назад

    那几个q\k\v的原理我不太明白,每个字都有自己的q,跟其他字的k的相似度代表了attention,然后再乘上对方的v。这整套的逻辑是啥呢?
    以及生成q\k\v的几个矩阵为啥是不同字符间通用的呢?

  • @gladstoneclairet1499
    @gladstoneclairet1499 4 года назад +1

    学习怎么能这么开心~!!!

  • @旅行者-z5o
    @旅行者-z5o 2 месяца назад

    其实可以考虑放在bilibili上,没有广告。。

  • @allenlai9954
    @allenlai9954 5 лет назад

    謝謝老師 講解的非常清楚

  • @inaqingww
    @inaqingww 3 года назад

    怎么会有这么棒的老师,我真是幸运啊!!

  • @zhiminli4225
    @zhiminli4225 2 года назад

    讲的太棒了!

  • @heqiaoruan5166
    @heqiaoruan5166 3 года назад

    这个老师讲的太赞了 👍

  • @ethaneaston6443
    @ethaneaston6443 Год назад

    老师可以讲一下Unet吗?现在的diffusion代码实现中的Unet结构,其中的Unet用了attention和position embedding两个模块。没理解attention和position embedding两个模块怎么处理图像的

  • @justinzhang1323
    @justinzhang1323 3 года назад

    老师讲得太好了!

  • @weihuang743
    @weihuang743 3 года назад

    很详细,很清晰,很赞

  • @xiangsong8942
    @xiangsong8942 3 года назад +1

    全网最佳

  • @JirongYi
    @JirongYi 2 года назад

    At 40:03, is b=[b^1; b^2;...;b^4] or b is one of b^1, b^2, b^3, and b^4?

  • @bobchen2817
    @bobchen2817 4 года назад +1

    😭,讲得太好了,找了好多材料~~

  • @张喜-i4x
    @张喜-i4x 4 года назад

    非常好,感谢

  • @beandog5445
    @beandog5445 5 лет назад +1

    you save my ass

  • @fionafan8267
    @fionafan8267 3 года назад +1

    想請問老師, 那麼 W_Q, W_K, W_V 是怎麼確定的呢?

  • @weikaichen546
    @weikaichen546 6 дней назад

    有一个问题不是很懂,35:55 处谷歌的动画显示,decoding的时候当前的输出是依赖于之前的输出的,那为什么李老师说b1到b4是并行同时生成的?有谁能解释一下?谢谢!@Hung-yi Lee

    • @weikaichen546
      @weikaichen546 6 дней назад

      我大概想通了,应该是self attention理论上就是可以并行地生成所有的输出,但是test time的时候还是需要sequential地生成,因为没有前文不可能有后语。因此,训练的时候需要用masked multi-head attention把后面的信息遮挡掉

  • @yanfeizhang3580
    @yanfeizhang3580 Год назад

    老师,请问masked multi-head attention能做一个解释吗?不太理解这个机制

  • @卢伟-h1u
    @卢伟-h1u 2 месяца назад

    英语不太好,老师说的 搭啪搭 是dot product 么?没有恶意呦

  • @gourmetdata971
    @gourmetdata971 4 года назад

    有一个问题:positional encoding 应该是直接加上去而不是concatenate吧。原文是:The positional encodings have the same dimension d_model as the embeddings, so that the two can be summed

    • @gourmetdata971
      @gourmetdata971 4 года назад +1

      现在明白了, W_I是word embedding matrix, 而W_P是positional embedding matrix。所以ppt里是正确的。

    • @HungyiLeeNTU
      @HungyiLeeNTU  4 года назад

      @@gourmetdata971 沒錯 :)

    • @youngandy6161
      @youngandy6161 Год назад

      @@gourmetdata971 开始我也没理解这块,看到你的评论我也明白了,李老师将矩阵下移是换了另一种说法,和原文中是一个效果。感谢

  • @grownupgaming
    @grownupgaming Год назад

    26:40 Is the head-split happening at ai? or at qi/ki/vi?

  • @xiuxiu0801
    @xiuxiu0801 3 года назад +1

    我竟然看懂了。。。。要哭了

  • @东方神剑-z4r
    @东方神剑-z4r 5 лет назад +2

    课程很棒,请问老师后面会有 BERT 的讲解吗

  • @aaronsarinana1654
    @aaronsarinana1654 2 года назад

    It would be nice to have sub-titles!

  • @商智洲
    @商智洲 3 года назад

    给力

  • @王毓华-h2i
    @王毓华-h2i 3 года назад

    41.40的时候,老师说:这个decoder的input是前一个()所产生的output,括号里说的那个英文单词是什么?tai side怪怪的,没听懂。求助一下。

  • @xiangliu2767
    @xiangliu2767 6 месяцев назад

    这个encode 和decode动画哪里可以看到,地址是什么

  • @weiranhuang3939
    @weiranhuang3939 4 года назад +2

    就因为叫Transformer就把这个影片分类为“汽车”吗

  • @mogazheng
    @mogazheng 6 месяцев назад

    每一个Wq,Wk,Wv,是不是都是一样的呢,还是说有Wq1,Wq2,Wq3....Wqi呢

  • @haonanchen193
    @haonanchen193 4 года назад

    弘毅老师讲的太好了,感谢资源

  • @jllee5374
    @jllee5374 4 года назад

    講的太好了,沒有比李老師講的更好的了。李宏毅老師了不起呀。

  • @edisonge9311
    @edisonge9311 4 года назад

    很棒~

  • @yanliuwang3079
    @yanliuwang3079 5 лет назад

    谢谢宏毅老师~

  • @beizhou2488
    @beizhou2488 5 лет назад +1

    李老师,您好。self-attention现在已经有慢慢取代LSTM的趋势了么?

    • @AIPlayerrrr
      @AIPlayerrrr 4 года назад

      现在已经完全取代啦。

  • @haomayor6306
    @haomayor6306 3 года назад

    跪谢李宏毅老师

  • @rahmanjalayer7389
    @rahmanjalayer7389 4 года назад +2

    Dear Lee, I wonder if you have this class in English?

  • @jiabaowen5059
    @jiabaowen5059 4 года назад

    太强了

  • @jasonwu8166
    @jasonwu8166 4 года назад

    谢谢老师的讲解! 有个问题, 为什么RNN不能够像self attention一样做到平行计算?

    • @user-tb1vb7rn8t
      @user-tb1vb7rn8t 4 года назад

      因為RNN的算法,它會依序計算一句話的每個字,每個字又要有前一個字的hidden變量才能計算。

  • @Natural_Motion
    @Natural_Motion 8 месяцев назад

    请教下W矩阵怎么理解的呢?

  • @song4015
    @song4015 4 месяца назад

    哪里可以下载这个PPT啊,这个可是全网讲的最清楚的了

  • @player-eric
    @player-eric 4 года назад

    请问一下,W^q的权值是共享的吗?

  • @mitddxia4799
    @mitddxia4799 3 года назад

    第33分钟左右的矩阵分块有点问题,结果不是直接相加,而是上下的关系才对

  • @旅行者-z5o
    @旅行者-z5o 2 месяца назад

    最后讲的怎么有点像RAG

  • @foxtimer16
    @foxtimer16 9 месяцев назад

    关于Add&Norm那段真的没有听懂

  • @jasonz3512
    @jasonz3512 3 года назад +1

    华语之光,反观大陆没有这样开放牛皮的