Transformer论文逐段精读

Поделиться
HTML-код
  • Опубликовано: 31 янв 2025

Комментарии • 219

  • @hw5622
    @hw5622 10 месяцев назад +8

    讲得真好,我反复读了好多遍了听你讲还能温故知新太棒了!谢谢李老师!

  • @LinnaDu
    @LinnaDu 2 года назад +81

    大神讲的真是浅显易懂,切中要害,听了那么多版本的attenion,就您这版最好理解。感觉自己听懂了,明白了。非常感谢您的分享。

    • @senx8758
      @senx8758 Год назад +7

      李宏毅的更细节一些。

  • @jasperlin1996
    @jasperlin1996 2 года назад +68

    謝謝大佬 深入淺出又補充了不少相關知識 真的是造福後進

  • @熊琦松
    @熊琦松 Год назад +17

    感谢大佬的分享,非常的浅显易懂,能够很好的将以往的技术和论文中的架构设计结合起来去讲解,让听众能够明白为什么这样设计,以前是怎么设计,以前和现在的设计各自的优点和缺点是什么,视频中还有许多很直观的比喻,之前看原文真实看的一头雾水、不体系,正式因为看到一小段就需要去深入挖掘一些额外的知识才能继续阅读,这可能也是信息密度高的文章比较晦涩难懂的原因,还好有您的视频才让更多对AI、对模型感兴趣的人能够更好的学习这个领域的知识,感谢~^_^

  • @g1y5x3
    @g1y5x3 8 месяцев назад +7

    57:00 感觉是整个精读的精髓,谢谢老师!

  • @allandogreat
    @allandogreat Год назад +13

    非常好,大学没有这么好的课程。沐神,身体健康

    • @bulingwen
      @bulingwen Год назад +3

      你在黑你大学的教学质量哈哈

  • @samchan4818
    @samchan4818 5 месяцев назад +4

    这种看了一个小时,知识进不了脑子的感觉太奇妙了😍

  • @testyoutubetest5910
    @testyoutubetest5910 Год назад +13

    理解透彻,讲解深入浅出,还肯花时间录制视频,收下我的膝盖

  • @misspanda5717
    @misspanda5717 Год назад +1

    在encoder中的自注意力可以计算所有的score(Q*K),encode中的mask是为了防止对输入序列中padding的数据计算分数。
    在decoder中mask是为了屏蔽“未来“的数据。

  • @muxingg
    @muxingg 10 месяцев назад

    非常棒!没有完全听懂,因为不是搞AI计算的,但是几十年前搞过并行算法的科学计算,很多东西是类比的。还是很有收获。大概需要多看几遍

  • @jinhuizhang702
    @jinhuizhang702 3 года назад +9

    太棒了,很喜欢精读论文系列

  • @meiriweixin
    @meiriweixin Год назад +2

    局外人发言。不小心搜到这个视频。视频看了一大半,觉得博主讲得好,心想这人一定自己懂很多,纳闷他会是哪个大学的计算机老师。原来是传说中的人物:)

  • @cici4148
    @cici4148 3 года назад +21

    最近刚好在学transformers有点疑惑 老师讲得非常清晰 问题迎刃而解 感谢!

  • @rikkatakanashi9703
    @rikkatakanashi9703 Год назад +9

    讲的非常清楚,非常感谢老师的讲解!!❤

  • @yunqin3407
    @yunqin3407 7 месяцев назад +1

    感谢精讲!挑个小毛病。4:52 褒(音同包)义词

  • @haoranding3324
    @haoranding3324 Год назад +2

    感谢大佬,真的是深入浅出!支持老师出更多视频!

  • @zhengqingpei7136
    @zhengqingpei7136 10 месяцев назад

    讲的太好了。 我 AI 完全不懂, 都可以理解你讲的。 感谢!

  • @ryanwang7160
    @ryanwang7160 10 месяцев назад

    lz讲得真好,视频做得也很上心!一部视频tshirt换了好几次

  • @海涛张-m1u
    @海涛张-m1u 5 месяцев назад

    大佬的讲解真是入木三分,对大模型的学习太有帮助了

  • @clementtw
    @clementtw Год назад +1

    聽了好幾遍,講得實在太好了!

  • @xiaominsong
    @xiaominsong Год назад

    3.3节55:04,在attention之后,经过norm后的feed forward MLP 是“position”-wise,不是“point”-wise。不过大佬的讲解没问题,估计是口误。MLP只对embedded features内部维度做线性变化,position之间是没有交互的,并且是weight是shared。也可以认为每一个position是一个point。

  • @ShuoWang-d7b
    @ShuoWang-d7b 3 дня назад

    太厉害了 讲的浅显易懂 !!!

  • @DakerTT
    @DakerTT Год назад +2

    谢谢老师,很有价值的分享。褒奖的褒,念Bao(同保)。

  • @tokyoaflowertokyo8300
    @tokyoaflowertokyo8300 Год назад +1

    真有耐心啊,谢谢主播分享

  • @Veda_RIKO
    @Veda_RIKO 5 месяцев назад

    感谢老师的详细讲解和无私分享!小白学到了很多🌹

  • @m13253
    @m13253 Год назад +5

    哇,竟然有一个半小时的全程字幕。辛苦了。

  • @alexsuen3506
    @alexsuen3506 Год назад +2

    Thank you very much for you work, Dr. Li!

  • @jiesu2575
    @jiesu2575 4 месяца назад

    讲的太好了,感谢老师,感谢互联网!!!!!!

  • @hasszhao
    @hasszhao 10 месяцев назад

    目前全网最优论文“解毒”保姆,小白这里佩服你。

  • @karlshomekitchen
    @karlshomekitchen 7 месяцев назад +1

    感謝指點我們的注意力

  • @kennys4100
    @kennys4100 9 месяцев назад

    在LLM大规模发展应用的今天再回头来看这个,感叹核心技术对行业发展的强大推动力,还有就是大道至简

  • @rampagetam9042
    @rampagetam9042 2 года назад +2

    解释得非常好,Thanks

  • @Shyan68
    @Shyan68 Год назад

    你的解說讓我的眼界更進一步了…

  • @leixu7993
    @leixu7993 5 месяцев назад

    老师讲的真的很好,常看常新

  • @jx92haha
    @jx92haha Год назад +1

    讲的太棒了!!必须点赞

  • @jiahangsu7100
    @jiahangsu7100 Год назад +1

    谢谢大佬的讲解,详细易懂~感谢感谢!

  • @duomingbian6305
    @duomingbian6305 19 дней назад

    谢谢李老师!讲得太棒了。

  • @shl9336
    @shl9336 10 месяцев назад

    视频真的非常好

  • @tuoli7266
    @tuoli7266 Год назад +1

    万分感谢! 期待您更多的作品

  • @XinPan-j3w
    @XinPan-j3w Год назад

    讲的太好了! 非常适合我这样的小白学习。

  • @蕭穎隆-d5h
    @蕭穎隆-d5h Год назад +4

    講的太好了,痛哭流涕啊

  • @jamesmina7258
    @jamesmina7258 7 месяцев назад

    感谢李沐老师,常读常新。

  • @BaccaratKingmaker
    @BaccaratKingmaker 9 месяцев назад +1

    了不起的成就與貢獻❤❤❤😂😂😂

  • @rchenandrews2850
    @rchenandrews2850 9 месяцев назад

    非常赞,讲得很清楚

  • @cancui1192
    @cancui1192 9 месяцев назад

    感谢,多年之后回来看还是有所收获。

  • @balabalabalabalabala
    @balabalabalabalabala 5 месяцев назад

    我认真听了的。褒义词和裹义词。

  • @brycegu2245
    @brycegu2245 Год назад +1

    讲的是真的好

  • @jonathanwan5519
    @jonathanwan5519 Год назад

    真的太好了 宝藏频道

  • @knightleung
    @knightleung Год назад

    非常好! 唯一有一点没讲太清楚的时候就是训练和预测的时候outputs sequence是具体怎么用的

    • @samuelleung9930
      @samuelleung9930 Год назад +1

      这个视频还有前两集,它们在visualize上做得挺好的。

  • @wenwenzhang635
    @wenwenzhang635 Год назад

    宝藏博主!谢谢您的分享。想跟着博主学习更多ML的知识。

  • @changken
    @changken 2 года назад +2

    老師太神了

  • @loganyang
    @loganyang 3 года назад +4

    膜拜大神,认真学习!

  • @xiaoxucao470
    @xiaoxucao470 Год назад

    谢谢老师,感谢大佬带我入门Transformer

  • @zhaohaiding9220
    @zhaohaiding9220 10 месяцев назад

    再来看李老师的讲解,终于看懂了(差不多)

  • @pengyiliao7240
    @pengyiliao7240 3 месяца назад

    讲解得太棒了!感谢!!

  • @zyw2134
    @zyw2134 Год назад

    感谢大神无私分享,拜谢~!

  • @dan9898
    @dan9898 2 года назад +88

    再生父母啊!!!!!!!!呜呜呜呜谢谢老师!!!

  • @csctbadi
    @csctbadi Год назад

    真的不错!大神就是大神!

  • @jinhuizhang702
    @jinhuizhang702 3 года назад +1

    太棒了 受益匪浅

  • @lilllllllllllll
    @lilllllllllllll Год назад

    受益良多,期待更多分享。

  • @jazlynlin9995
    @jazlynlin9995 2 года назад +1

    讲得好细啊!超棒!

  • @zz_home
    @zz_home Год назад

    非常有用,感謝大老

  • @uThank
    @uThank 7 месяцев назад

    可以这样理解吗?norm是为了让传感器的输出稳定,bn处理的卷积核影响的是通道维度,多头注意力是对特征重新加权,影响的是句子维度。

  • @sephiroth0733
    @sephiroth0733 Год назад

    感谢分享 层层深入

  • @UTE2
    @UTE2 Год назад

    非常感谢您的分享!

  • @yshliu4434
    @yshliu4434 4 месяца назад

    讲得太好了,牛

  • @TJVideoChannelUTube
    @TJVideoChannelUTube Год назад +2

    In Transformer model, only these layer types are involved in the deep learning/containing trainable parameters, and (3) with activation functions:
    (1). Word Embedding Layer;
    (2). Weighted matrices for K, V, Q;
    (3). Feed Forward Layer or Fully Connected Layer.
    Correct?

  • @derek142
    @derek142 11 месяцев назад

    未看先感谢沐神~

  • @bennyzhao6577
    @bennyzhao6577 2 года назад +1

    讲的太好了老师,谢谢!

  • @b95109028
    @b95109028 Год назад

    大老恕我爆粗口但是給予敬意:他媽的這種視頻都有。謝謝了

  • @gc7017
    @gc7017 Год назад +1

    1:18:30 左右,label smoothing应该是讲反了?应该是正确的category减0.1, 然后其他category+原来正确的category分这0.1吧?

  • @turing-code
    @turing-code Год назад

    33:40处,绿色的权重应该只与自身高度相关,与中间的向量应该不一定相关。

  • @yewenli
    @yewenli Год назад

    老师讲的太好了!深入浅出!

  • @fanyang2061
    @fanyang2061 3 года назад +1

    谢谢,讲得清晰明了

  • @starbuckseric4038
    @starbuckseric4038 Год назад

    大佬您為何那麼晚才讓我看到您的影片 太感激了

  • @DanielDD4889
    @DanielDD4889 Год назад +2

    Thanks so much! One question to ask: 3.5 Positional Encoding
    ---
    where pos is the position and i is the dimension, i is in the range of 1-512, right? If this is true, how to understand PE(pos,2i)? 2i will be in the range of 2-1024?
    Thanks

  • @greenshadowooo
    @greenshadowooo Год назад

    Thanks for detail explanation

  • @andrewmeowmeow
    @andrewmeowmeow 3 года назад +6

    感谢沐神的讲解! 请问沐神接下来有计划讲解一下Chelsea Finn的MAML吗?也想听一下沐神对于meta-learning的看法

    • @alphaprofold5707
      @alphaprofold5707 3 года назад

      而且为什么好像MAML有点停滞不前了?

    • @andrewmeowmeow
      @andrewmeowmeow 3 года назад +3

      @@alphaprofold5707 Hello, MAML个人觉得在原本few-shot learning的领域上表现的一般,反而可能会在federated learning上有所发挥。具体MAML和meta-learning的 发展我也没follow up了之前感兴趣的时候看了看

  • @amymu2731
    @amymu2731 Год назад +1

    Very impressive! Thank you!

  • @yian4589
    @yian4589 Год назад

    谢谢 很有裨益

  • @ilpreterosso
    @ilpreterosso Год назад

    太感谢啦!

  • @show_timemagic7030
    @show_timemagic7030 Год назад

    感谢老师分享

  • @williamlee4215
    @williamlee4215 Год назад +1

    Very good

  • @jiyuanan6927
    @jiyuanan6927 9 месяцев назад

    太清楚了,谢谢,能问一下数据训练是在哪个阶段做的?

  • @kolibre-zhou
    @kolibre-zhou Год назад

    感谢分享!

  • @chinese-good-news
    @chinese-good-news 4 месяца назад

    Transformer把序列信息抽取出来,加工成我们想要的语义空间。

  • @noonehere238
    @noonehere238 Год назад

    讲的真好

  • @lunxun-b2l
    @lunxun-b2l Год назад +1

    这简直是种享受,大佬教学确实不一样

  • @rufus9322
    @rufus9322 Год назад +2

    想了解它的Embedding層是如何將詞轉換成512維度的向量的,網路上查Embedding似乎有很多做法,不清楚Transformer論文中的是哪一種?

  • @terryliu3635
    @terryliu3635 8 месяцев назад

    THE BEST!!!

  • @kururuhuang3829
    @kururuhuang3829 10 месяцев назад

    感谢大佬

  • @user-sk3dr8nl9u
    @user-sk3dr8nl9u Год назад +1

    一輪簽! 謝謝大大,讓我知識完備很多

  • @zesenzhao3712
    @zesenzhao3712 Год назад

    每一个搞深度学习科研的人最终都逃不过这一期视频😅

  • @xwyangjshb2
    @xwyangjshb2 Год назад

    感谢🙏

  • @yingguo4174
    @yingguo4174 Год назад

    大神❤

  • @hangchen
    @hangchen Год назад

    7:49, 想问下GBT是什么?是Gradient Boosted Trees吗?还是说应是GPT?

  • @tongli4110
    @tongli4110 Год назад

    感谢!! 之前有一个点一直理解错了😂🤣

  • @unclejoe666
    @unclejoe666 2 года назад

    感谢大佬!

  • @钱文龙-z9f
    @钱文龙-z9f Год назад +1

    4:53 褒(bao)义词

  • @otrees
    @otrees Год назад

    谢谢,老师,太帅了