BERT (预训练Transformer模型)

Поделиться
HTML-код
  • Опубликовано: 25 окт 2024

Комментарии • 39

  • @QinwuXu
    @QinwuXu 4 месяца назад +1

    说话风格很棒, 讲得也很好。

  • @nanshen9966
    @nanshen9966 3 года назад +16

    感谢王老师! 网上找了很多transformer和bert入门的资料,没有一个比您的更易懂

  • @wllbll
    @wllbll 3 месяца назад

    一下就明白了cls token的意义了:他和rnn最后一个hidden输出作用差不多,只不过rnn里面,始终要通过各种架构(如lstm等)来解决最后一个hidden随着输出长度增加而丢失前面信息的问题,attention层输出的cls token,会携带
    所以输出是信息,完美解决rnn的问题。attention设计精美,王老师讲的棒!

  • @JeremyZ1036
    @JeremyZ1036 3 года назад +6

    看了不下三遍,太喜欢王老师的风格了

  • @gaoxuemin9003
    @gaoxuemin9003 3 года назад

    讲述的确实是清晰,点赞

  • @yuewang-ze1qv
    @yuewang-ze1qv Год назад

    非常不错的讲解,深入浅出

  • @chinese366
    @chinese366 2 года назад

    哥 讲的很清晰

  • @yusun5347
    @yusun5347 4 года назад

    厉害,很清楚,期待更多视频!

  • @haolinyang4928
    @haolinyang4928 4 года назад

    讲非常清楚明白!谢谢!

  • @maxxxwan
    @maxxxwan 3 года назад +2

    今天又看了一遍小王老师的视频,确实是讲得好。RoBERTa通过实验把NSP给否了。其实也就差零点几个百分点,而且在不同的数据集上表现不一致,其实没什么意义。Bert这种自动生成标签的方式并不严谨。自然语言最难的是需要绝对正确,这么高capacity的模型还是生成不了稍微长一点的正确句子,说明现在走的方向可能有问题。

    • @ShusenWang
      @ShusenWang  3 года назад

      受教了!也就是说最好的预训练是只用masking,数据更多更长,再有一些小技巧,就可以达到state of the art了对吗?

    • @maxxxwan
      @maxxxwan 3 года назад

      @@ShusenWang 是的,RoBERTa建议只用masking,而且是动态masking: arxiv.org/pdf/1907.11692v1.pdf

    • @Bing.W
      @Bing.W Год назад

      Bert的方向因为chatGPT的火爆开始被人质疑了,还是生成下一个token最有价值。这个原理到底是什么,似乎也没人能说清楚。

  • @qchirac
    @qchirac 3 года назад

    老师,这里遮住的数据是随机的,合成loss函数包含的loss个数也是随机的,写keras,tensorflow时候怎么连呢?难不成每个子loss还要乘上一个阀门,阀门值0/1在数据随机生成mask时候定?

  • @jianwang8020
    @jianwang8020 3 года назад

    wang shu sen 你好, 我是你的观众

  • @sssklis7414
    @sssklis7414 3 года назад

    讲的太好了,感恩!

  • @woodgeorge5585
    @woodgeorge5585 3 года назад

    字正腔圆 好好好

  • @yangkewen
    @yangkewen Год назад

    有个地方不太明白,Bert预训练采用的是wordpiece方法,假如有些word被分拆成多个subwords,ruclips.net/video/UlC6AjQWao8/видео.html 这里embedding层输出的就是subword的embedding了吧,应该就不只是x1到x6了吧

  • @liangxu208
    @liangxu208 4 года назад

    讲的很清晰

  • @edzq9155
    @edzq9155 2 года назад

    0:38 ppt里面参考文献 BERT应该是 发表在NAACL2019,不是ACL。

    • @ShusenWang
      @ShusenWang  2 года назад

      是的,我写错了,多谢哈

    • @edzq9155
      @edzq9155 2 года назад

      @@ShusenWang 感谢王老师开源这么棒的教程。实在是太棒了(我是您知乎多年粉丝 哈哈哈)

  • @user-wq8yo7nh8d
    @user-wq8yo7nh8d 2 года назад

    感谢王老师,我有个问题,为什么是靠cls起始位置对应的输出c向量来判断两句话是否相邻?是否可以通过其他什么位置的单词对应的输出向量来判断呢?

    • @liliLearnToLife
      @liliLearnToLife 2 года назад

      我觉得这个只是他们事先定义的,改成别的位置插入的 符号作为预测向量应该应该都一样

  • @leonli5970
    @leonli5970 3 года назад

    大道至简!

  • @xdxn2010
    @xdxn2010 3 года назад

    bert的这两种构造样本的方式和传统的word2vec或seq2seq有和本质差别呢?(取前n-1个单词作为输入feature,第n个词作为label),仅仅是因为构造的样本数更多吗?

    • @ShusenWang
      @ShusenWang  3 года назад +2

      好问题!其实我也不确定。我觉得拿上下文作为训练数据,能更好提取语义。

    • @ximingdong503
      @ximingdong503 3 года назад +2

      w2v 中 每个单词对应一个 embedding, 但是 Bert 会考虑上下文 还有 position 打个比方 如果 apple 代表 水果 和 apple 代表 苹果公司 他们 出来的 embedding是不一样的 他们的 input token ID 一样的 经过 token embedding 也是 一样的 但是 出来的 output 就不一样了 因为 Bert 使用 position 和 self attention 进行 训练的。 bert output的 东西 除了 第一个 cls 就是上下文的 词向量只是 后面接了 linear layer 变成分类任务了。

    • @jackkod7395
      @jackkod7395 3 года назад

      他们本质上都是前后文信息,但是transformer结构更好结构整体信息所以效果看起来比另外的好很多

  • @guoqiongsong
    @guoqiongsong Год назад

    王老师,请讲一下GPT和ChatGPT,可以吗?

    • @ShusenWang
      @ShusenWang  Год назад

      网上已经很多了,我就不班门弄斧了🤣

  • @汪钰林
    @汪钰林 3 года назад

    我相问一下SEP上面对应的输出S由什么意义?

    • @ShusenWang
      @ShusenWang  3 года назад

      没意义。如果是多层,必须要这个,把两个序列分开。

  • @chengcheng6082
    @chengcheng6082 4 года назад +4

    为了DL买了两个2080TI,然鹅玩不了BERT

    • @乾谦
      @乾谦 2 года назад

      Bert 计算量太大吗

    • @wangyan5229
      @wangyan5229 Год назад

      买十个也跑不了

  • @xylineone
    @xylineone Год назад

    位置编码一句没提😂