ELMO, BERT, GPT

Поделиться
HTML-код
  • Опубликовано: 7 ноя 2024

Комментарии • 82

  • @yufan2148
    @yufan2148 5 лет назад +64

    4:56 A word can have multiple senses.
    11:24 ELMO
    19:08 BERT
    49:23 GPT(-2)

    • @rexzhang15
      @rexzhang15 2 года назад +1

      23:36 BERT Training

  • @bohanzhai6514
    @bohanzhai6514 4 года назад +5

    讲的也太好了吧,我从来没看过这么有趣的课

  • @胡浩-h8r
    @胡浩-h8r 5 лет назад +7

    史上最通俗易懂的讲解,不接受反对!

  • @abc123634
    @abc123634 5 лет назад +12

    感謝教授又一精彩的解說!

  • @kikiwu8993
    @kikiwu8993 2 года назад +2

    李老师是我的神!从机器学习基石一路看来。。感恩。。。

  • @kdlin1892
    @kdlin1892 4 года назад +1

    哈哈哈,一天一欢乐,听老师讲单口相声

  • @hhorace_hsu
    @hhorace_hsu 5 лет назад +5

    9:31 這例子也太棒了吧XDD

  • @项纯岩
    @项纯岩 5 лет назад +3

    李老师,您好,谢谢您录制的视频。关于bert训练有个疑问,就是通过Masked LM训练bert的时候,会有15%的词被替换成[MASK]。不过这15%的[MASK]中,只有其中的80%是[MASK],其中的10%是随机选的词,剩下的10%是原来句子中的词保持不变。请问,这样的目的是什么?为什么要选择10%用随机的词来替换,又为什么10%的词保持不变?

    • @weichen7845
      @weichen7845 5 лет назад +4

      [MASK] 是为了看不到词自己,逼迫学到 context embedding。10% 是随机选词基本和前面意图差不多,但 corpus 中本身不会出现 [MASK],这样做避免 bias。10% 的词保持不变是因为,实际任务中,这个词的 embedding 是由它自身 embedding 和 context embedding 决定的,如果全部都保持不变,model 可以偷窥,就难以学到 context embedding。
      关于 为何是 15%, 10%,见 github.com/google-research/bert/issues/85

    • @wangcarrey2953
      @wangcarrey2953 5 лет назад

      @@weichen7845 您好,不好意思,我没有太明白这个解释,第一corpus本身不会出现[mask],这样做避免bias,是避免什么的bias呢?其次10%保持不变,与全部都保持不变model可以偷窥有什么联系吗?为什么10%不变就可以学到context embedding?

    • @senx8758
      @senx8758 3 года назад

      @@wangcarrey2953 :) machine learning中有很多magic

  • @zhenyuhe8111
    @zhenyuhe8111 4 года назад +2

    李老师真的是一位宝藏老师!!!

  • @hangchen
    @hangchen 9 месяцев назад +1

    前瞻啊!GPT现在火了来学习4年前的课!

  • @muhammadsaadmansoor7777
    @muhammadsaadmansoor7777 3 года назад +2

    Listening to this raised my chinese language skills

  • @novwonxine3249
    @novwonxine3249 5 лет назад

    李教授讲的太好了!

  • @丁丁龙龙
    @丁丁龙龙 4 года назад

    请问一下李老师,还有没有最新的视频呢?有的话什么时候会上传呢?谢谢李老师

  • @nalaw.5854
    @nalaw.5854 4 года назад +5

    教授讲的是真的清楚 比我网上看的那些medium, towarddatascience很多水文强太多 谢谢教授。

    • @hudsonvan4322
      @hudsonvan4322 4 года назад +3

      我看了很多文 感覺就是從這裡抄出去的呢

  • @xuzhang2431
    @xuzhang2431 4 года назад +4

    谢谢李老师的精彩课程。现在关于Graph Learning有很多进展,李老师有没有计划出教学片,非常期待中。。。。

  • @刘关张-k6q
    @刘关张-k6q 3 года назад

    请问把linear multi-class classifier套个sofmax改成非线性的会不会优化呀?

  • @SC-ss8vb
    @SC-ss8vb 4 года назад

    讲的真的好啊,谢谢教授~

  • @sidneelian7544
    @sidneelian7544 2 года назад

    請問,GPT的隨機性體現在哪裏?因爲看到說同一個輸入每次GPT吐出來的東西不一樣。

  • @intoeleven
    @intoeleven 4 года назад

    bert 只要做fine-tuning意思是weights不变freeze all layers except the last one 吧?感觉bert有点像一个文字语义的万能transfer learning

  • @zhangshaojie9790
    @zhangshaojie9790 4 года назад

    还是没懂bert里的transformer encoder和 gpt里的transformer decoder有什么区别。 本来decoder就是多了算来自encoder的注意力而,没有了encoder之后,那decoder其实不是跟encoder一样吗。 50:32

  • @sherryqixuan
    @sherryqixuan 5 лет назад

    想请问老师 finetune BERT task 1。微调原来的参数 这个微调的比例大概多少 为什么要微调呢?如果不微调又会有什么影响呢

  • @aminlouise4480
    @aminlouise4480 2 года назад +1

    通俗易懂,十分适合人工智能小白入门学习!谢谢教授

  • @黄达承
    @黄达承 4 года назад

    您好,李老師。上面的內容沒有了解到gpt-2的finetuning的方法,請你賜教啊!

  • @xlwang5888
    @xlwang5888 4 года назад

    elmo关于“退了”这个contextual embedding解释的不是很清楚,给的3个“退了”的句子确实能学出三个不同的embedding,但是最后用elmo的时候,“退了”这个词的word embedding其实也是look up table去查,查到的也就是一个word embedding。并不能反映出不同上下文我就有不同embedding的感觉。

    • @senx8758
      @senx8758 3 года назад

      查出来的embedding还要根据前文的hidden state重新计算得到新的output embedding

  • @leiberlyu1493
    @leiberlyu1493 Год назад

    这个视频我看了六七次,每次都有新的收获

  • @zxdsw199182
    @zxdsw199182 3 года назад

    求问下6分16秒时候的不同的tokens指的是什么意思?

  • @rufus9322
    @rufus9322 Год назад

    以後會介紹BioGPT嗎?🙂

  • @wenxuli4234
    @wenxuli4234 3 года назад

    请问在李老师讲M-bert 时右上角推荐的文章是否有人可以分享链接(49:22),因为刚好被挡住了。感谢=)

  • @senx8758
    @senx8758 3 года назад +1

    bert输入序列不是one hot, 而是一个embedding字典id--> vector

    • @HungyiLeeNTU
      @HungyiLeeNTU  3 года назад

      你說的沒錯,embedding 字典查 vector 這件事情,其實就是 one-hot 乘上一個 linear transformation

  • @JiancongXie
    @JiancongXie 4 года назад

    感谢李老师的教授。

  • @jason77nhri
    @jason77nhri 4 года назад

    李教授您好 那請問Bert 怎麼處理name entity recognition的實作阿? 您說 Bert 不需要有annotated data
    但是我們是有已經標注好的特定NE語料了耶 謝謝

    • @HungyiLeeNTU
      @HungyiLeeNTU  4 года назад

      蘇矩賢 訓練 BERT 本身不需要 annotated data ,但要把 BERT 用在 NER 上還是需要的

    • @jason77nhri
      @jason77nhri 2 года назад

      @@HungyiLeeNTU 謝謝您 那請問在NER task裡面 要如何餵語料給Bert 訓練呢?
      語料有特定的格式嗎? 像是CRF++的token格式那樣?
      另外Bert 是已經預訓練好的model 那我們用自己的NE標註語料是去fine tuning嗎? 謝謝

  • @蘇文杰-f5p
    @蘇文杰-f5p 5 лет назад +2

    大内高手高手高高手:我全都要!

  • @yeodal954
    @yeodal954 4 года назад

    Can I receive subscription...? Even if your material is English, but I want to know the details, too.. please. ㅠㅠ

  • @natarajanbalasubramanian8484
    @natarajanbalasubramanian8484 5 лет назад +3

    Can you please enable the video translation?

  • @darrenchen5873
    @darrenchen5873 4 года назад +1

    哈哈哈,边笑边学习,李老师好样的

  • @skywalker0803r
    @skywalker0803r 4 года назад

    複習完路過 真的講得很好

  • @jeremywu06
    @jeremywu06 3 года назад +1

    真的好淺顯易懂..

  • @bnglr
    @bnglr 2 года назад

    BERT名字里的Bi-directional有点牵强

  • @thedeliverguy879
    @thedeliverguy879 5 лет назад

    老师,可以发一下那个attention的visualization在哪里嘛😄谢谢

    • @HungyiLeeNTU
      @HungyiLeeNTU  5 лет назад +1

      在這裡: arxiv.org/abs/1904.02679

  • @ziqingye7774
    @ziqingye7774 4 года назад

    1:02:45. -- You are a good guy. -- Good bye.

  • @陈绿佳
    @陈绿佳 4 года назад

    关于语言模型预训练,深入学习可参考:张俊林老师的博客《从Word Embedding到Bert模型-自然语言处理中的预训练技术发展史》zhuanlan.zhihu.com/p/49271699 涵盖了word2vec、ELMO、GPT、BERT等技术,深度好文,强烈推荐

  • @zhengyangzhao9816
    @zhengyangzhao9816 5 лет назад +2

    其实建议老师可以自己上B站开一个号的~然后自己搬运会更好

  • @qiangsun175
    @qiangsun175 5 лет назад

    GPT是transformer的decoder这个说法比较难以理解,decoder中有两个multi-head attention;但是GPT只有一个;请教如何理解

    • @marksein07
      @marksein07 4 года назад

      用decoder 是指由前往後預測 沒有用到來在同一個句子 後半段的文字

  • @chuxianmo1593
    @chuxianmo1593 3 года назад

    讲的太好了!

  • @li-pingho1441
    @li-pingho1441 Год назад

    推 太牛逼ㄌ

  • @jeremyhcw
    @jeremyhcw 4 года назад

    請問bert 屠榜 那個網址是?

  • @skytree278
    @skytree278 4 года назад

    You are a good guy. 😂

  • @朱磊-g6d
    @朱磊-g6d 5 лет назад +6

    友情提示,我全都要在15:15

  • @刘末良
    @刘末良 5 лет назад

    非常感谢分享

  • @jarorkwong8042
    @jarorkwong8042 3 года назад

    9:05 李老师老二次元了

  • @ruisun7103
    @ruisun7103 3 года назад

    真的很酷,赞赞赞!

  • @Ruhgtfo
    @Ruhgtfo 3 года назад

    谷阿莫教AI 少了刻刻~

  • @darebang4746
    @darebang4746 5 лет назад +1

    教授,这个ppt在哪呢,能下到吗

    • @HungyiLeeNTU
      @HungyiLeeNTU  5 лет назад +9

      都在這裡: speech.ee.ntu.edu.tw/~tlkagk/courses_ML19.html

  • @finite-element
    @finite-element 4 года назад

    醒醒吧你没有妹妹!

  • @ddandy2134
    @ddandy2134 5 лет назад

    为什么听不到声音呢?

  • @NeoZondix
    @NeoZondix 5 месяцев назад

    That's all chinese to me

  • @jianjianw5339
    @jianjianw5339 4 года назад +1

    讲的太牛逼了,来自中国北京

  • @潘雨彤-u5j
    @潘雨彤-u5j 2 года назад

    tql

  • @wehe7908
    @wehe7908 4 года назад

    老师您好,请问能发一下这个视频的PPT吗,在台大那个课程网站上只能找到这个视频(自我学习->BERT),但找不到PPT,

    • @HungyiLeeNTU
      @HungyiLeeNTU  4 года назад

      speech.ee.ntu.edu.tw/~tlkagk/courses_ML20.html
      (這裡有喔,在作業九那邊)

    • @wehe7908
      @wehe7908 3 года назад

      @@HungyiLeeNTU 謝謝老師!我找到了!

  • @tianchibi8899
    @tianchibi8899 5 лет назад +2

    基本国内的很多大公司都在用这些模型

  • @Dobby06668
    @Dobby06668 4 года назад

    31:38

  • @junxiao3621
    @junxiao3621 5 лет назад +2

    hhh 我全都要

  • @maksimmrvica7966
    @maksimmrvica7966 5 лет назад

    我全都要!

  • @god-son-love
    @god-son-love 5 лет назад

    問題是一般實驗室根本訓練不了這麼大的模型,除非你在私人企業工作,不然沒有這樣的算力。

  • @raymondlion314
    @raymondlion314 4 года назад

    不知道在说些什么 但看上去还蛮像样子的😄