【一张图讲完强化学习原理】 30分钟了解强化学习名词脉络

相关性05：BERT模型 (Part 2) - 模型训练

Vision Transformer (ViT) 用于图片分类

Diggy Graves - Red Vineyard [Official Lyric Video]

SPURS at MAVERICKS | FULL GAME HIGHLIGHTS | October 24, 2024

Yellowstone Official Trailer | Paramount Network

BERT (预训练Transformer模型)

Shusen Wang

Просмотров 23 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 25 окт 2024

Комментарии • 39

@QinwuXu 4 месяца назад ⁺¹
说话风格很棒, 讲得也很好。
@nanshen9966 3 года назад ⁺¹⁶
感谢王老师！网上找了很多transformer和bert入门的资料，没有一个比您的更易懂
@wllbll 3 месяца назад
一下就明白了cls token的意义了：他和rnn最后一个hidden输出作用差不多，只不过rnn里面，始终要通过各种架构（如lstm等）来解决最后一个hidden随着输出长度增加而丢失前面信息的问题，attention层输出的cls token，会携带
所以输出是信息，完美解决rnn的问题。attention设计精美，王老师讲的棒！
@JeremyZ1036 3 года назад ⁺⁶
看了不下三遍，太喜欢王老师的风格了
@gaoxuemin9003 3 года назад
讲述的确实是清晰，点赞
@yuewang-ze1qv Год назад
非常不错的讲解，深入浅出
@chinese366 2 года назад
哥讲的很清晰
@yusun5347 4 года назад
厉害，很清楚，期待更多视频！
@haolinyang4928 4 года назад
讲非常清楚明白！谢谢!
@maxxxwan 3 года назад ⁺²
今天又看了一遍小王老师的视频，确实是讲得好。RoBERTa通过实验把NSP给否了。其实也就差零点几个百分点，而且在不同的数据集上表现不一致，其实没什么意义。Bert这种自动生成标签的方式并不严谨。自然语言最难的是需要绝对正确，这么高capacity的模型还是生成不了稍微长一点的正确句子，说明现在走的方向可能有问题。
@ShusenWang 3 года назад
受教了！也就是说最好的预训练是只用masking，数据更多更长，再有一些小技巧，就可以达到state of the art了对吗？
@maxxxwan 3 года назад
@@ShusenWang 是的，RoBERTa建议只用masking，而且是动态masking: arxiv.org/pdf/1907.11692v1.pdf
@Bing.W Год назад
Bert的方向因为chatGPT的火爆开始被人质疑了，还是生成下一个token最有价值。这个原理到底是什么，似乎也没人能说清楚。
@qchirac 3 года назад
老师，这里遮住的数据是随机的，合成loss函数包含的loss个数也是随机的，写keras，tensorflow时候怎么连呢？难不成每个子loss还要乘上一个阀门，阀门值0/1在数据随机生成mask时候定？
@jianwang8020 3 года назад
wang shu sen 你好，我是你的观众
@sssklis7414 3 года назад
讲的太好了，感恩！
@woodgeorge5585 3 года назад
字正腔圆好好好
@yangkewen Год назад
有个地方不太明白，Bert预训练采用的是wordpiece方法，假如有些word被分拆成多个subwords，ruclips.net/video/UlC6AjQWao8/видео.html 这里embedding层输出的就是subword的embedding了吧，应该就不只是x1到x6了吧
@liangxu208 4 года назад
讲的很清晰
@edzq9155 2 года назад
0:38 ppt里面参考文献 BERT应该是发表在NAACL2019，不是ACL。
@ShusenWang 2 года назад
是的，我写错了，多谢哈
@edzq9155 2 года назад
@@ShusenWang 感谢王老师开源这么棒的教程。实在是太棒了（我是您知乎多年粉丝哈哈哈）
@user-wq8yo7nh8d 2 года назад
感谢王老师，我有个问题，为什么是靠cls起始位置对应的输出c向量来判断两句话是否相邻？是否可以通过其他什么位置的单词对应的输出向量来判断呢？
@liliLearnToLife 2 года назад
我觉得这个只是他们事先定义的，改成别的位置插入的符号作为预测向量应该应该都一样
@leonli5970 3 года назад
大道至简！
@xdxn2010 3 года назад
bert的这两种构造样本的方式和传统的word2vec或seq2seq有和本质差别呢？（取前n-1个单词作为输入feature，第n个词作为label），仅仅是因为构造的样本数更多吗？
@ShusenWang 3 года назад ⁺²
好问题！其实我也不确定。我觉得拿上下文作为训练数据，能更好提取语义。
@ximingdong503 3 года назад ⁺²
w2v 中每个单词对应一个 embedding，但是 Bert 会考虑上下文还有 position 打个比方如果 apple 代表水果和 apple 代表苹果公司他们出来的 embedding是不一样的他们的 input token ID 一样的经过 token embedding 也是一样的但是出来的 output 就不一样了因为 Bert 使用 position 和 self attention 进行训练的。 bert output的东西除了第一个 cls 就是上下文的词向量只是后面接了 linear layer 变成分类任务了。
@jackkod7395 3 года назад
他们本质上都是前后文信息，但是transformer结构更好结构整体信息所以效果看起来比另外的好很多
@guoqiongsong Год назад
王老师，请讲一下GPT和ChatGPT，可以吗？
@ShusenWang Год назад
网上已经很多了，我就不班门弄斧了🤣
@汪钰林 3 года назад
我相问一下SEP上面对应的输出S由什么意义？
@ShusenWang 3 года назад
没意义。如果是多层，必须要这个，把两个序列分开。
@chengcheng6082 4 года назад ⁺⁴
为了DL买了两个2080TI，然鹅玩不了BERT
@乾谦 2 года назад
Bert 计算量太大吗
@wangyan5229 Год назад
买十个也跑不了
@xylineone Год назад
位置编码一句没提😂

Следующие

Автовоспроизведение

【一张图讲完强化学习原理】 30分钟了解强化学习名词脉络

【一张图讲完强化学习原理】 30分钟了解强化学习名词脉络

相关性05：BERT模型 (Part 2) - 模型训练

相关性05：BERT模型 (Part 2) - 模型训练

Vision Transformer (ViT) 用于图片分类

Vision Transformer (ViT) 用于图片分类

Diggy Graves - Red Vineyard [Official Lyric Video]

Diggy Graves - Red Vineyard [Official Lyric Video]

SPURS at MAVERICKS | FULL GAME HIGHLIGHTS | October 24, 2024

SPURS at MAVERICKS | FULL GAME HIGHLIGHTS | October 24, 2024

Yellowstone Official Trailer | Paramount Network

Yellowstone Official Trailer | Paramount Network

CHROMAKOPIA VINYL

CHROMAKOPIA VINYL

Transformer模型(2/2): 从Attention层到Transformer网络

Transformer模型(2/2): 从Attention层到Transformer网络

BERT 论文逐段精读【论文精读】

BERT 论文逐段精读【论文精读】

Transformer Neural Networks Derived from Scratch

Transformer Neural Networks Derived from Scratch

BERT Neural Network - EXPLAINED!

BERT Neural Network - EXPLAINED!

Transformer模型(1/2): 剥离RNN，保留Attention

Transformer模型(1/2): 剥离RNN，保留Attention

RNN模型与NLP应用(9/9)：Self-Attention (自注意力机制)

RNN模型与NLP应用(9/9)：Self-Attention (自注意力机制)

How large language models work, a visual intro to transformers | Chapter 5, Deep Learning

How large language models work, a visual intro to transformers | Chapter 5, Deep Learning

【生成式AI科普3】ChatGPT原理揭密！背后的黑科技Transformer | Demystify Transformer Behind ChatGPT

【生成式AI科普3】ChatGPT原理揭密！背后的黑科技Transformer | Demystify Transformer Behind ChatGPT

Transformer论文逐段精读

Transformer论文逐段精读

ДЕВУШКА ИЗ ГРУЗИИ СТАНЦЕВАЛА ПОД РУССКИЙ РОМАНС 🇷🇺❤️🇬🇪 #чатрулетка #реакцияиностранцев #романс

ДЕВУШКА ИЗ ГРУЗИИ СТАНЦЕВАЛА ПОД РУССКИЙ РОМАНС 🇷🇺❤️🇬🇪 #чатрулетка #реакцияиностранцев #романс

Бокс - Финты Дмитрия Бивола

Бокс - Финты Дмитрия Бивола

ŠKODA не перестает удивлять

ŠKODA не перестает удивлять

Самый умный комик. Выпуск 22 [Щербаков, Лисевский, Гудков, Малой, Пушкин]

Самый умный комик. Выпуск 22 [Щербаков, Лисевский, Гудков, Малой, Пушкин]

Lp. Сердце Вселенной #35 БРОНЗОВАЯ СОВА [Магическая Реликвия] • Майнкрафт

Lp. Сердце Вселенной #35 БРОНЗОВАЯ СОВА [Магическая Реликвия] • Майнкрафт

ДУБАЙСКАЯ ШОКОЛАДКА 🍫

ДУБАЙСКАЯ ШОКОЛАДКА 🍫

I tricked MrBeast into giving me his channel

I tricked MrBeast into giving me his channel

СРОЧНО! ЗАПУЩЕНА КАТАСТРОФА... КАРАСЕВ: ОКНО ПЕРЕГОВОРОВ ОТКРЫЛОСЬ! СБРОШЕНА "КОРЕЙСКАЯ КАРТА"...

СРОЧНО! ЗАПУЩЕНА КАТАСТРОФА... КАРАСЕВ: ОКНО ПЕРЕГОВОРОВ ОТКРЫЛОСЬ! СБРОШЕНА "КОРЕЙСКАЯ КАРТА"...