Размер видео: 1280 X 720853 X 480640 X 360
Показать панель управления
Автовоспроизведение
Автоповтор
4:56 A word can have multiple senses.11:24 ELMO19:08 BERT49:23 GPT(-2)
23:36 BERT Training
讲的也太好了吧,我从来没看过这么有趣的课
史上最通俗易懂的讲解,不接受反对!
感謝教授又一精彩的解說!
李老师是我的神!从机器学习基石一路看来。。感恩。。。
哈哈哈,一天一欢乐,听老师讲单口相声
9:31 這例子也太棒了吧XDD
李老师,您好,谢谢您录制的视频。关于bert训练有个疑问,就是通过Masked LM训练bert的时候,会有15%的词被替换成[MASK]。不过这15%的[MASK]中,只有其中的80%是[MASK],其中的10%是随机选的词,剩下的10%是原来句子中的词保持不变。请问,这样的目的是什么?为什么要选择10%用随机的词来替换,又为什么10%的词保持不变?
[MASK] 是为了看不到词自己,逼迫学到 context embedding。10% 是随机选词基本和前面意图差不多,但 corpus 中本身不会出现 [MASK],这样做避免 bias。10% 的词保持不变是因为,实际任务中,这个词的 embedding 是由它自身 embedding 和 context embedding 决定的,如果全部都保持不变,model 可以偷窥,就难以学到 context embedding。 关于 为何是 15%, 10%,见 github.com/google-research/bert/issues/85
@@weichen7845 您好,不好意思,我没有太明白这个解释,第一corpus本身不会出现[mask],这样做避免bias,是避免什么的bias呢?其次10%保持不变,与全部都保持不变model可以偷窥有什么联系吗?为什么10%不变就可以学到context embedding?
@@wangcarrey2953 :) machine learning中有很多magic
李老师真的是一位宝藏老师!!!
前瞻啊!GPT现在火了来学习4年前的课!
Listening to this raised my chinese language skills
李教授讲的太好了!
请问一下李老师,还有没有最新的视频呢?有的话什么时候会上传呢?谢谢李老师
教授讲的是真的清楚 比我网上看的那些medium, towarddatascience很多水文强太多 谢谢教授。
我看了很多文 感覺就是從這裡抄出去的呢
谢谢李老师的精彩课程。现在关于Graph Learning有很多进展,李老师有没有计划出教学片,非常期待中。。。。
期待+1 !!!
请问把linear multi-class classifier套个sofmax改成非线性的会不会优化呀?
讲的真的好啊,谢谢教授~
請問,GPT的隨機性體現在哪裏?因爲看到說同一個輸入每次GPT吐出來的東西不一樣。
bert 只要做fine-tuning意思是weights不变freeze all layers except the last one 吧?感觉bert有点像一个文字语义的万能transfer learning
还是没懂bert里的transformer encoder和 gpt里的transformer decoder有什么区别。 本来decoder就是多了算来自encoder的注意力而,没有了encoder之后,那decoder其实不是跟encoder一样吗。 50:32
想请问老师 finetune BERT task 1。微调原来的参数 这个微调的比例大概多少 为什么要微调呢?如果不微调又会有什么影响呢
通俗易懂,十分适合人工智能小白入门学习!谢谢教授
您好,李老師。上面的內容沒有了解到gpt-2的finetuning的方法,請你賜教啊!
elmo关于“退了”这个contextual embedding解释的不是很清楚,给的3个“退了”的句子确实能学出三个不同的embedding,但是最后用elmo的时候,“退了”这个词的word embedding其实也是look up table去查,查到的也就是一个word embedding。并不能反映出不同上下文我就有不同embedding的感觉。
查出来的embedding还要根据前文的hidden state重新计算得到新的output embedding
这个视频我看了六七次,每次都有新的收获
求问下6分16秒时候的不同的tokens指的是什么意思?
以後會介紹BioGPT嗎?🙂
请问在李老师讲M-bert 时右上角推荐的文章是否有人可以分享链接(49:22),因为刚好被挡住了。感谢=)
bert输入序列不是one hot, 而是一个embedding字典id--> vector
你說的沒錯,embedding 字典查 vector 這件事情,其實就是 one-hot 乘上一個 linear transformation
感谢李老师的教授。
李教授您好 那請問Bert 怎麼處理name entity recognition的實作阿? 您說 Bert 不需要有annotated data但是我們是有已經標注好的特定NE語料了耶 謝謝
蘇矩賢 訓練 BERT 本身不需要 annotated data ,但要把 BERT 用在 NER 上還是需要的
@@HungyiLeeNTU 謝謝您 那請問在NER task裡面 要如何餵語料給Bert 訓練呢?語料有特定的格式嗎? 像是CRF++的token格式那樣?另外Bert 是已經預訓練好的model 那我們用自己的NE標註語料是去fine tuning嗎? 謝謝
大内高手高手高高手:我全都要!
Can I receive subscription...? Even if your material is English, but I want to know the details, too.. please. ㅠㅠ
Can you please enable the video translation?
哈哈哈,边笑边学习,李老师好样的
複習完路過 真的講得很好
真的好淺顯易懂..
BERT名字里的Bi-directional有点牵强
老师,可以发一下那个attention的visualization在哪里嘛😄谢谢
在這裡: arxiv.org/abs/1904.02679
1:02:45. -- You are a good guy. -- Good bye.
关于语言模型预训练,深入学习可参考:张俊林老师的博客《从Word Embedding到Bert模型-自然语言处理中的预训练技术发展史》zhuanlan.zhihu.com/p/49271699 涵盖了word2vec、ELMO、GPT、BERT等技术,深度好文,强烈推荐
其实建议老师可以自己上B站开一个号的~然后自己搬运会更好
GPT是transformer的decoder这个说法比较难以理解,decoder中有两个multi-head attention;但是GPT只有一个;请教如何理解
用decoder 是指由前往後預測 沒有用到來在同一個句子 後半段的文字
讲的太好了!
推 太牛逼ㄌ
請問bert 屠榜 那個網址是?
You are a good guy. 😂
友情提示,我全都要在15:15
非常感谢分享
9:05 李老师老二次元了
真的很酷,赞赞赞!
谷阿莫教AI 少了刻刻~
教授,这个ppt在哪呢,能下到吗
都在這裡: speech.ee.ntu.edu.tw/~tlkagk/courses_ML19.html
醒醒吧你没有妹妹!
为什么听不到声音呢?
That's all chinese to me
讲的太牛逼了,来自中国北京
tql
老师您好,请问能发一下这个视频的PPT吗,在台大那个课程网站上只能找到这个视频(自我学习->BERT),但找不到PPT,
speech.ee.ntu.edu.tw/~tlkagk/courses_ML20.html(這裡有喔,在作業九那邊)
@@HungyiLeeNTU 謝謝老師!我找到了!
基本国内的很多大公司都在用这些模型
31:38
hhh 我全都要
我全都要!
問題是一般實驗室根本訓練不了這麼大的模型,除非你在私人企業工作,不然沒有這樣的算力。
不知道在说些什么 但看上去还蛮像样子的😄
4:56 A word can have multiple senses.
11:24 ELMO
19:08 BERT
49:23 GPT(-2)
23:36 BERT Training
讲的也太好了吧,我从来没看过这么有趣的课
史上最通俗易懂的讲解,不接受反对!
感謝教授又一精彩的解說!
李老师是我的神!从机器学习基石一路看来。。感恩。。。
哈哈哈,一天一欢乐,听老师讲单口相声
9:31 這例子也太棒了吧XDD
李老师,您好,谢谢您录制的视频。关于bert训练有个疑问,就是通过Masked LM训练bert的时候,会有15%的词被替换成[MASK]。不过这15%的[MASK]中,只有其中的80%是[MASK],其中的10%是随机选的词,剩下的10%是原来句子中的词保持不变。请问,这样的目的是什么?为什么要选择10%用随机的词来替换,又为什么10%的词保持不变?
[MASK] 是为了看不到词自己,逼迫学到 context embedding。10% 是随机选词基本和前面意图差不多,但 corpus 中本身不会出现 [MASK],这样做避免 bias。10% 的词保持不变是因为,实际任务中,这个词的 embedding 是由它自身 embedding 和 context embedding 决定的,如果全部都保持不变,model 可以偷窥,就难以学到 context embedding。
关于 为何是 15%, 10%,见 github.com/google-research/bert/issues/85
@@weichen7845 您好,不好意思,我没有太明白这个解释,第一corpus本身不会出现[mask],这样做避免bias,是避免什么的bias呢?其次10%保持不变,与全部都保持不变model可以偷窥有什么联系吗?为什么10%不变就可以学到context embedding?
@@wangcarrey2953 :) machine learning中有很多magic
李老师真的是一位宝藏老师!!!
前瞻啊!GPT现在火了来学习4年前的课!
Listening to this raised my chinese language skills
李教授讲的太好了!
请问一下李老师,还有没有最新的视频呢?有的话什么时候会上传呢?谢谢李老师
教授讲的是真的清楚 比我网上看的那些medium, towarddatascience很多水文强太多 谢谢教授。
我看了很多文 感覺就是從這裡抄出去的呢
谢谢李老师的精彩课程。现在关于Graph Learning有很多进展,李老师有没有计划出教学片,非常期待中。。。。
期待+1 !!!
请问把linear multi-class classifier套个sofmax改成非线性的会不会优化呀?
讲的真的好啊,谢谢教授~
請問,GPT的隨機性體現在哪裏?因爲看到說同一個輸入每次GPT吐出來的東西不一樣。
bert 只要做fine-tuning意思是weights不变freeze all layers except the last one 吧?感觉bert有点像一个文字语义的万能transfer learning
还是没懂bert里的transformer encoder和 gpt里的transformer decoder有什么区别。 本来decoder就是多了算来自encoder的注意力而,没有了encoder之后,那decoder其实不是跟encoder一样吗。 50:32
想请问老师 finetune BERT task 1。微调原来的参数 这个微调的比例大概多少 为什么要微调呢?如果不微调又会有什么影响呢
通俗易懂,十分适合人工智能小白入门学习!谢谢教授
您好,李老師。上面的內容沒有了解到gpt-2的finetuning的方法,請你賜教啊!
elmo关于“退了”这个contextual embedding解释的不是很清楚,给的3个“退了”的句子确实能学出三个不同的embedding,但是最后用elmo的时候,“退了”这个词的word embedding其实也是look up table去查,查到的也就是一个word embedding。并不能反映出不同上下文我就有不同embedding的感觉。
查出来的embedding还要根据前文的hidden state重新计算得到新的output embedding
这个视频我看了六七次,每次都有新的收获
求问下6分16秒时候的不同的tokens指的是什么意思?
以後會介紹BioGPT嗎?🙂
请问在李老师讲M-bert 时右上角推荐的文章是否有人可以分享链接(49:22),因为刚好被挡住了。感谢=)
bert输入序列不是one hot, 而是一个embedding字典id--> vector
你說的沒錯,embedding 字典查 vector 這件事情,其實就是 one-hot 乘上一個 linear transformation
感谢李老师的教授。
李教授您好 那請問Bert 怎麼處理name entity recognition的實作阿? 您說 Bert 不需要有annotated data
但是我們是有已經標注好的特定NE語料了耶 謝謝
蘇矩賢 訓練 BERT 本身不需要 annotated data ,但要把 BERT 用在 NER 上還是需要的
@@HungyiLeeNTU 謝謝您 那請問在NER task裡面 要如何餵語料給Bert 訓練呢?
語料有特定的格式嗎? 像是CRF++的token格式那樣?
另外Bert 是已經預訓練好的model 那我們用自己的NE標註語料是去fine tuning嗎? 謝謝
大内高手高手高高手:我全都要!
Can I receive subscription...? Even if your material is English, but I want to know the details, too.. please. ㅠㅠ
Can you please enable the video translation?
哈哈哈,边笑边学习,李老师好样的
複習完路過 真的講得很好
真的好淺顯易懂..
BERT名字里的Bi-directional有点牵强
老师,可以发一下那个attention的visualization在哪里嘛😄谢谢
在這裡: arxiv.org/abs/1904.02679
1:02:45. -- You are a good guy. -- Good bye.
关于语言模型预训练,深入学习可参考:张俊林老师的博客《从Word Embedding到Bert模型-自然语言处理中的预训练技术发展史》zhuanlan.zhihu.com/p/49271699 涵盖了word2vec、ELMO、GPT、BERT等技术,深度好文,强烈推荐
其实建议老师可以自己上B站开一个号的~然后自己搬运会更好
GPT是transformer的decoder这个说法比较难以理解,decoder中有两个multi-head attention;但是GPT只有一个;请教如何理解
用decoder 是指由前往後預測 沒有用到來在同一個句子 後半段的文字
讲的太好了!
推 太牛逼ㄌ
請問bert 屠榜 那個網址是?
You are a good guy. 😂
友情提示,我全都要在15:15
非常感谢分享
9:05 李老师老二次元了
真的很酷,赞赞赞!
谷阿莫教AI 少了刻刻~
教授,这个ppt在哪呢,能下到吗
都在這裡: speech.ee.ntu.edu.tw/~tlkagk/courses_ML19.html
醒醒吧你没有妹妹!
为什么听不到声音呢?
That's all chinese to me
讲的太牛逼了,来自中国北京
tql
老师您好,请问能发一下这个视频的PPT吗,在台大那个课程网站上只能找到这个视频(自我学习->BERT),但找不到PPT,
speech.ee.ntu.edu.tw/~tlkagk/courses_ML20.html
(這裡有喔,在作業九那邊)
@@HungyiLeeNTU 謝謝老師!我找到了!
基本国内的很多大公司都在用这些模型
31:38
hhh 我全都要
我全都要!
問題是一般實驗室根本訓練不了這麼大的模型,除非你在私人企業工作,不然沒有這樣的算力。
不知道在说些什么 但看上去还蛮像样子的😄