【深層学習】GPT-2 - 大規模言語モデルの可能性を見せ、社会もざわつかせたモデルの仕組み【ディープラーニングの世界vol.33】
HTML-код
- Опубликовано: 26 авг 2021
- 超自然な文章を生成できることが話題になり、一時は公開が見送られていた言語モデルである GPT-2 の紹介です。
社会的なセンセーショナルさとは距離をおいて、どういうモデルで、どういうタスクを、どうやって解いたのか、何がすごいのかをお届けします!
▼関連動画
Transformer の動画はこちら! • 【深層学習】Transformer - Mu...
忙しい人向け → • 【深層学習】忙しい人のための Transfo...
GPT → • 【深層学習】GPT - 伝説の始まり。事前学...
Deep Learning の世界 • Deep Learning の世界
自然言語処理シリーズ • 自然言語処理シリーズ
▼参考文献
Radford, Alec, et al. "Language models are unsupervised multitask learners." OpenAI blog 1.8 (2019): 9.
www.persagen.com/files/misc/ra...
原論文!
世間では「巨大言語モデルを巨大データで学習して AI すげー!」って騒がれましたが、裏には考え抜かれた緻密な設計と努力があります。
AI を作る側の私達としては、一度読んでおくと、華々しい成果の裏に何があるのかが知れていいんじゃないかなーなんて思います。
He, Kaiming, et al. "Identity mappings in deep residual networks." European conference on computer vision. Springer, Cham, 2016.
link.springer.com/chapter/10....
Residual Connection は勾配消失対策だけじゃなくて、恒等写像学習のアイテムでもあるのです。
その哲学で書かれている論文。私は好きです。
その哲学を解説した ResNet の動画はこちら → • 【深層学習】 CNN 紹介 "ResNet"...
Reddy, Siva, Danqi Chen, and Christopher D. Manning. "Coqa: A conversational question answering challenge." Transactions of the Association for Computational Linguistics 7 (2019): 249-266.
direct.mit.edu/tacl/article/d...
タスクの1つ、CoQAのデータセットの論文です。TOEIC的な問題を集めているのですが、これが深層学習モデルに解けるのはすごい。
パラパラ眺めるだけでもイメージついていいと思います!
【2019年版】自然言語処理の代表的なモデル・アルゴリズム時系列まとめ - Qiita qiita.com/LeftLetter/items/14...
いろいろこれを参考にして動画を作っています
▼終わりに
ご視聴ありがとうございました!
面白かったら高評価、チャンネル登録お願いします。
動画の質問、感想などは、コメント欄やTwitterにどうぞ!
お仕事、コラボのご依頼は、公式 WebPage や TwitterのDMからお願い致します。
AIcia Solid Project - Official Website - sites.google.com/view/aicia-o...
動画生成:AIcia Solid (Twitter: / aicia_solid )
動画編集:AIris Solid (妹) (Twitter: / airis_solid )
=======
Logo: TEICAさん ( / t_e_i_c_a )
Model: 3d.nicovideo.jp/works/td44519
Model by: W01fa さん ( / w01fa ) Наука
自然言語処理分野の大学院生です。GPT-2の入門のような位置づけ視聴しました。大変参考になりました。ありがとうございます。
ご視聴コメントありがとうございます!🎉
本業の方にそう言っていただけてとても嬉しいです!🤩🎉
ぜひ、ご活用くださいませ!
面白かったです! 汎用的なものってむしろ教師なし学習によってできていくのでしょうか?
いい質問ですね😎
それを解き明かすため、今、世界の研究者が様々なアプローチで挑戦しているのだと思います。
私の感覚では、教師なしと教師ありのコラボ(場合によっては強化学習も?)あたりがいいんじゃないかなーなんて、のんびり思っています🤤
自然言語処理関連ですが、
Kleinberg バーストアルゴリズムについて解説してほしいです。
たしかに、これ楽しそうですね👀
ありがとうございます、検討します!
4:22 かわいすぎ
わかる😍😍😍
Thanks!
ご支援いただきありがとうございます!!!😍🎉🎉🎉
今後もより良い動画を生成できるよう精進しますので、このゴモ応援いただけますと嬉しいです!🥳
よろしくお願いします!(^o^)
Winograd schema challengeが解けるという恐ろしさの意味が最近になってChatGPT4で初めて分かりました。しかもChatGPT4はこっちの間違いまで慮って意図はこうだと思うからこう答えますとか言ってくる。
LaMDAもこう言うの見てクラクラしてたんだろうなあ、とその辺りも分かった気がする。MAGIとか本当に恐ろしいものが出てくる気がする。
ご視聴コメントありがとうございます!🎉
言語モデルの精緻化が常識の獲得をもたらすのは非自明ですし、驚きですよね😮
いつもわかりやすい動画ありがとうございます。
一応確認しておきたいのですが、ChatGPTのように逐次単語が出力されるのは、ある時刻までの全ての出力を次の時刻の入力として新しい単語を出力する、ということを繰り返しているからですよね?
であれば、一番に最初の単語はどのように決定するのでしょう?
ご視聴コメントありがとうございます!
良い質問ですね!
基本的に、一番初めの単語は という特殊単語で固定されています。(Beginning Of Sentence の略です)
なので、これの次以降の単語を予測することとなります。
ただし、これでは、何を生成するか全く不明なので、
なにか機能を持たせたい場合は、はじめに文章を入れて、その続きを生成させることになります。
これが、いわゆる Prompt Engineering です!
ちょうど疑問に思っていたので助かりました。本当にいい質問です。
いつもわかりやすい動画ありがとうございます。勉強させて頂いてます!
稚拙な質問かもしれないのですが、
GPT-2や3はBERTを超えた性能になっているのかと思ったのですが、GPT-2や3の登場によって、BERTが要らなくなる訳ではないのでしょうか?なぜBERTはめちゃくちゃ使われているのでしょうか?内容を理解出来ていなかったら申し訳ありません。
ご視聴コメントありがとうございます!
もしかしたら将来はどちらかのみになるかもしれませんね👀
ただ、いまは GPT と BERT はそれぞれに得意領域があるので、併用されているのだと思います!
トロフィーとスーツケースの問題は現実の物理的なイメージを持っていなくても言葉だけの世界で推論できる!?(メアリーの部屋みたい)
穴埋め問題で事前学習することによって教師データも要らない..(データ自身が教師データか..)
画像も穴を開けたら教師データ要らないのかな
つまり、構造を持ったデータから機械的に推論できる!?
AIにいろんな情報を教えてあげれば、AIはそれを元に新たな創造をする?。。
いつも素敵なコメントありがとうございます!!!
実は、画像でも穴埋め問題は事前学習に効果的であることがわかってます!!!
そっち系の研究もたくさんあるので、ぜひ探してみてください!🎉
言い出す輩w大量のデータ、いったいどんな機械で学習させているのだろう?…
GPT3は公開すらしてくれない…
ハードの構成も気になりますよね👀
たくさん並列したよ!と、しれっと書いてあったりしますが、そこにも魂がこもっている気がします👀