【深層学習】Scaling Law - 大きい Transformer は強い【ディープラーニングの世界vol.38】

AIcia Solid Project

Просмотров 8 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 17 окт 2024

Комментарии • 35

@user-wu9nc1hq7o Год назад
面白い動画をありがとうございます！
@AIcia_Solid Год назад
こちらこそ！
ご視聴コメントありがとうございます！🎉
是非他の動画も楽しんでいただけると嬉しいです😊
@yumeki_koratai 5 месяцев назад
ほとんど予備知識のない私にもわかりやすかったです。10^12というと1000B=1Tくらいまでは、パラメタ数を増やせば精度は比例して上がる、ということでしょうか。とてもためになりました。
@AIcia_Solid 5 месяцев назад ⁺¹
夢樹さん、ご視聴コメントありがとうございます！
昨日は配信でもたくさんコメントをいただきありがとうございました🎉🎉🎉
そうなんです、1T まではガンガン上がると見られています！
また、最近は、もっと省パラメーターでもっと性能の良いものを作る研究も進んでいて、なかなか楽しくなってきております！🎉
とても面白い世界です！🎉
@ikki6840 Год назад
論文紹介ありがとうございます。
質問させてください。
ここでいうloss は訓練データに対するものでしょうか？
@AIcia_Solid Год назад
ご視聴コメントありがとうございます！
はい、そのとおりです。loss は訓練データに対するものです。
@kitaka8233 Год назад
まじで今のGPT4、GPT3.5がスケーリングの法則を雄弁に物語っていると思いました。。これからGPTはどこまで行くのか楽しみです
@AIcia_Solid Год назад ⁺³
素敵！
この動画を見ていただけるとはお目が高い！
これが2020年には分かっていて、この可能性にかけた結果が GPT-4 なのですよね。ほんとにすごいです。
最近は画像認識もついた GPT-4V なども出てきました。今後が楽しみですね！！！
@AIcia_Solid 6 месяцев назад ⁺¹
ご視聴コメントありがとうございます！
素敵すぎる観点ですね！！！
まさに！！！！！
なのですが、実はあのあといろんな技術の進展があったので、今の限界は1兆パラメタより伸びているのではないかと思います。（想像なので、ホントのところは調べないと分かりません）
また、GPT-4 は（たぶん）MoE というアーキテクチャを用いており、
Scaling Law は（たぶん）層を直列したときの限界に関する主張ですが、
MoE は並列しているものなので、
MoE を使ったときの限界がどこにあるかはまた別だと思います。
限界と言われていても、なんだかんだまだまだ技術の進歩で前に進めるのではないかと思うので、今後の研究に期待しているところです！
@intlkey4043 Год назад
ありがとうございます！今2023年です。最近LLMsのことでよく聞く項目だったので大変助かりました。とてもわかりやすかったです。
@AIcia_Solid Год назад ⁺²
ご視聴コメントありがとうございます！
そして、ご支援もいただきありがとうございます。助かります！🤩🎉🎉🎉
Scaling Law、すごいですよね😮
ちなみに、GTP-4 でも scaling law は健全らしいです🤩
@futomitsuishi2656 2 года назад ⁺¹
いつも分かりやすい動画ありがとうございます！！
質問なのですが、
・この論文によって、限段階でのsotaを追うことに意味はなくなり、scaling lawの数値(良い言い方が分からないのですがlossがパラメータの何乗等に比例する、の何乗の部分の数値のことです)が良いことを示して初めて新アーキテクチャの提案と言えるという事になるのでしょうか？
(現実的には厳しいとは思いますが…)
応援しています！
@AIcia_Solid 2 года назад
ご視聴コメントありがとうございます！
鋭い質問ですね😎😎😎
両方の研究とも価値あると思います。
じっさい、SoTA 研究は今もありますし、Scaling Law自体の改善も界隈から望まれていると思います！
@futomitsuishi2656 2 года назад
@@AIcia_Solid
ありがとうございます！
@小田惣也 2 года назад ⁺¹
すべての動画がめちゃめちゃわかりやすいです！今後の動画も楽しみにしております。
Vision Transformerや自己教師あり学習などについても今後取り扱いいただければ幸いです！！
@AIcia_Solid 2 года назад
ご視聴コメントありがとうございます！🎉
お褒めに預かり光栄です😍
いずれそこも扱いたいと思っております！
しばしお待ち下さい！🎉
@朴香丹-t8l 2 года назад
いろいろと良い勉強になります。動画更新どうもありがとうございます。
@AIcia_Solid 2 года назад
ご視聴コメントありがとうございます！！！
そう言っていただけると嬉しいです😊
今後も良き動画を生成していきますので、応援のほどよろしくおねがいします(^o^)
@ribfuwa2323 2 года назад
大きいモデルは夢があるけど、やっぱり自分のPCで動くモデルがほしい
@AIcia_Solid 2 года назад
わかります🤤🤤🤤🤤🤤
@kentoo_1 2 года назад ⁺²
元論文見たらマジでほぼ直線になってて驚きました RNNやCNNではスケーリング則は成り立たないのでしたっけ？破綻するまで計算できるOpenAIの財力はんぱない…。
@AIcia_Solid 2 года назад ⁺³
でしょー！！！！！😍
原論文には、LSTM の scaling law も少しだけありましたよー。
Transformer ほどではなさそうでしたが、、、。
OpenAI はすごいですね。お金と研究の両方うまいんだと思います😍
@chinchilla-z4s 2 года назад
いつも素晴らしい動画をありがとうございます！✌️
原点回帰で、バックプロパゲーションやバッチ学習、またadamやSGDなどの最適化アルゴリズムなどのニューラルネットワークの基礎も、アイシアさんの切り口で解説を聞いてみたいです！
@AIcia_Solid 2 года назад ⁺³
ご視聴コメントありがとうございます😍🎉🎉🎉
そうですよねー、そこも話したいんですが、作りたい動画が多くてなかなか着手できておりません！
来年は強化学習 year の予定ですので、少し（念単位）おまたせしてしまう見込みです🙇‍♀️🙇‍♀️🙇‍♀️
@chinchilla-z4s 2 года назад
@@AIcia_Solid
コメントありがとうございます！
強化学習も楽しみです！　数年先でも楽しみに待ってますよ〜！
@薩摩守-j2f 2 года назад
GPT-2は、数千億パラメータを用いるのですよね？そうなると、Fine-Tuningするときでも、足し算掛け算して学習するために、大規模計算機がないといけなくなりませんか？
そうなると、小さな会社では使いづらいですね。対抗馬のBERTでは、どれくらいのパラメータが必要になるのでしょうか？それとも、GPTでもBERTでも、大規模計算機を持っているコンサルタント会社が代わりにFine-Tuningすることになるのでしょうか？(Pre-Trainingはすでに提供されてますから、本当に大規模な計算機資源はなくても、それなりの大規模計算機があれば、コンサルタントはできますよね)
うーん、実務で使う場合でも、数千億パラメータの掛け算足し算を行うのだから、大規模計算機は必要になりますね…小さな会社でAIを業務適用するのは難しそうですね。
次回の動画、楽しみです！
@AIcia_Solid 2 года назад
GPT−3 のことでしょうか、、、？
GPT や BERT には様々なサイズがあるので、一概には言えないと思いますが、サイズによってはクラウドで比較的用意に動かすことができます。
最先端の研究モデルは、そもそもいつの時代も簡単に動かすことはできませんでした。それが、のちの研究で、より誰でも触れるようになってきました。
ただ今もその流れが続いているのだと思います。
@薩摩守-j2f 2 года назад
@@AIcia_Solid ご返信ありがとうございます。この論文の後にGPT-3が出てきたと思っていたので、GPT-2と書きました。物を知らず、大変申し訳ありません。
比較的性能が高いことの多い、クラウド環境は選択肢の一つですが、相手の都合で提供されなくなったら終わってしまうので、そこが怖いです。そうなると、自前で準備しよう、となるのですが、どれくらいの性能のPCが必要なのかな？と思って質問した次第です。
GPTやBERTは、サイズも色々あるのですね。本当に物を知らず、大変申し訳ありません。また、最先端の研究モデルが実運用しにくい、というのも、確かに仰る通りです。まだ研究途上ということを忘れていました。マスター様の会社でBERTが運用されているとお伺いしましたので、てっきり簡単に実運用できるものと思ってしまいました。本当にごめんなさい。
繰り返しになり恐縮ですが、ご返信いただき、ありがとうございました。これからも応援します！
@AIcia_Solid 2 года назад
このあたりは調べていただくと色々出てくるので、興味に応じてみていただくのが良いかと思います！(^o^)
ぜひ今後もお楽しみください！🎉
@niruru9560 2 года назад
「大モデルはデータ効率良い」は、納得しにくい感じがします。
@AIcia_Solid 2 года назад ⁺²
なるほど🤔🤔🤔
コメントありがとうございます！
もしよければお教えください！
この動画の主張で話したことが納得し難いという意味でしょうか？
それとも、話し方が良くないので分かりづらいという意味でしょうか、、、？
今後の参考にしたいので、お教えいただけますとありがたいです！
よろしくおねがいします！(^o^)
@niruru9560 2 года назад ⁺¹
@@AIcia_Solid この動画の主張で話したことが納得し難いという意味です。
パラメータを大きくした場合、データを大きくしないと性能が伸びない（悪化）というイメージです。
GPT-4には100兆のパラメータという情報があったので、1兆は近いうちに超えそうですね。
@AIcia_Solid 2 года назад ⁺⁵
なるほど！
ありがとうございます！！
たしかに、今までの直感と異なりますよねー。
でも、実験結果がそうらしいのです。
私は直感の方を書き換えることにしました👀

Следующие

Автовоспроизведение

【深層学習】GPT-3 ①-1 モデルと Sparse Transformer について【ディープラーニングの世界vol.39】#124 #VRアカデミア #DeepLearning