GPTとは何か Transformerの視覚化 | Chapter 5, Deep Learning

3Blue1BrownJapan

Просмотров 159 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 5 окт 2024
この動画は3Blue1Brownの動画を東京大学の学生有志団体が翻訳・再編集し公式ライセンスのもと公開しているものです。
チャンネル登録と高評価をよろしくお願いいたします。
日本語版Twitter
/ 3b1bjp
元チャンネル（英語）
/ 3blue1brown
元動画（英語）
• How large language mod...
Check out our new channel Ufolium
• アメリカ大統領選挙の仕組み
Richard Turner's introduction is one of the best starting places:
arxiv.org/pdf/...
Coding a GPT with Andrej Karpathy
• Let's build GPT: from ...
Introduction to self-attention by John Hewitt
web.stanford.e...
History of language models by Brit Cruise:
• ChatGPT: 30 Year Histo...
Paper about examples like the “woman - man” one presented here:
arxiv.org/pdf/...
unembeddingの訳語
embedding 埋め込みに対してunembeddingの日本語訳が見つけられませんでした。しかしembeddingを埋め込みと呼ぶのに対してunembeddingをそのままにするのは不自然であると思われたため日本語訳を試みました。「逆埋め込み」はこれが厳密な意味で逆の操作になっていないことから却下され、「埋め込み」により意味的に対応する「掘り出し」を採用しました。Xやオフラインでの議論の中でこの訳語の複数の提案がありました。
明確にしておくと、これは現時点で一般的な訳語ではありません（そもそも、現在広く使われている訳語が無いと思われるため何に訳しても一般的ではないと思います）。むしろ、一種の提案として受け取られるものであると思います。
Dall-Eの読み
日本語だと「ダリ」と読まれることが多いですが、この名前は「ウォーリー」と「ダリ」のかばん語で、英語では「ドーリー」ということが多いようです。
----------------------------------------
英語版翻訳元チャンネルの支援
/ 3blue1brown
アニメーションはmanimで作られています
github.com/3b1...
英語版公式ソーシャルメディア
Webサイト: www.3blue1brow...
Twitter: / 3blue1brown
Facebook: / 3blue1brown
Reddit: / 3blue1brown
----------------------------------------
Music by Vincent Rubinetti
Download the music on Bandcamp:
vincerubinetti...
Stream the music on Spotify:
open.spotify.c...

Комментарии • 111

@pumochan 4 месяца назад ⁺¹¹⁹
7:45 1980年代に大学生の僕はそのアプローチでのAIの勉強をしていました。
LISPやPrologなどのプログラミング言語を駆使してモデルを構築しようと試みられた時代です。
当時それらの言語に最適化した専用のコンピュータまで開発されましたが、結局実用的なAIはできなかった。
その頃既にニューラルネットワークの基礎理論はありましたが主流ではありませんでした。
昨今のAIの隆盛を見ると、新しい時代が来たことをしみじみと感じます。
わかりやすい動画での解説ありがとうございます。
@fudousanphp Месяц назад
五世代コンピュータと呼ばれるものですね。残念ながらLISP等は一部の分野しか使われずpythonが今やAIの主流言語になりました。時代を感じます
@sort35b4 4 месяца назад ⁺⁸⁴
これを見ると全く論理的な思考はしていないのに如何にも正しそうな答えが出てくるのがすごい。
chatGPTが数学苦手な理由がわかる。
@kuniko925 4 месяца назад ⁺³
わりと回答だけは分かってるときの解説はまし
宿題わからん時に使ってます
@Gyuudooon 4 месяца назад ⁺²
使ってみた感じ、求値問題がわりと問題あると思いました。でも抽象概念の証明などは論理もあってわかりやすく解説してくれます
@こいか-w8c 4 месяца назад ⁺¹
実は人間の脳も似たようなモノなんや…
@sort35b4 4 месяца назад ⁺³
@AkamisoFAKE 使ってみましたがパイソンを駆使して計算してましたね！脅威的です。
@yongosen 4 месяца назад ⁺⁴⁸
ここまでわかりやすい動画と解説を日本語で見ることが出来て嬉しい
日本語訳本当にありがとうございます
@tsurumy 4 месяца назад ⁺³²
「Unembedding matrix」を「掘り出し行列」と訳しているのが、なんとも数学畑な感じがして興味深いです。
技術畑の人間にとって「embed」は「埋め込み」ではなく「組み込み」のイメージが強いので、原語版を観たときは勝手に「unembedding matrix」を「取り外し行列」と脳内翻訳していました（笑
原語版からわずかな期間での日本語版作成、本当にお疲れ様です。これからも楽しみにしています！
@nelnia 4 месяца назад ⁺¹⁴
概念がとてもわかりやすい。CPUよりGPUのような単純大量の計算が得意なチップが
必要になる理由が理解できました。翻訳ありがとうございます
@hitsuki_karasuyama 4 месяца назад ⁺³¹
翻訳ありがてえ
@mtaka84219 4 месяца назад ⁺⁶
理解できる限界を遥かに超えてるけど、なんとなく面白い。
@user-MizumasiGohanKansokusha 4 месяца назад ⁺¹⁴
日本語版早くない！？
もうできたんか
マジありがたし！
@wswsan 4 месяца назад ⁺⁷
オリジナルの方を先に見てたからある程度頭に入りやすかった, 聞き落としてる部分多くてまたさらに理解が深まった
@pikarin7401 4 месяца назад ⁺⁷
英語の見てても理解半分だったので助かります！
@ykgood 4 месяца назад ⁺⁶
素晴らしいコンテンツですね。これを翻訳してくた貢献度は爆大
@shiro_teacher 4 месяца назад ⁺¹¹
最高の教材
@徳川慶喜-u6o 4 месяца назад ⁺⁴
よくこんなの思いつくな、
発想がすごいと思ってたら
コメにいる賢者たちのおかげで
昔から研究されてきた分野なのだと
知ることができた。
仕組みも規模もすごすぎる。
@u7f8au7fbd 4 месяца назад ⁺²
素晴らしすぎる; ;わかりやすい資料ほど英語のものが多かったので、この和訳動画は非常にありがたい; ;
@owata1942 4 месяца назад ⁺³
22:21 ソフトマックス関数が量子力学の各エネルギー固有値に粒子が存在する確率を表す関数p_i=exp(-βE_i)/(Σexp(-βE_i)　と完全に同じ形なのおもろい
@r8v106 15 дней назад
ふんわりとしか理解できないけどこんなのを作り出す人間に感動するよ
@kjerome2588 4 месяца назад ⁺⁵
素晴らしくわかりやすい！感動した！
@XYZ_cycle 4 месяца назад ⁺⁵
人間が言語を扱う上でどういった処理をしているかを数値化すると例えばこういう表現になるんすね
この翻訳動画も担当するヒトが何等かのアルゴリズム使って作り上げてると言い換える事もできるとか
どうしても出来ない場合は近いものに置き換えるとか
@幻日莉亜 4 месяца назад ⁺¹
トランスフォーマーの説明が分かりやすすぎて泣いた
@FlawOfEducation 4 месяца назад ⁺⁴
わかりやすい！翻訳ありがとうございます🤗
@青りんご-r6u 4 месяца назад ⁺¹
このチャンネルがこの動画を出してくれるのはありがたい
@Ran21050 4 месяца назад ⁺⁴
まじでありがたいです次もたのむ🙏🙏🙏🙏🙏
@ai2012 4 месяца назад ⁺⁶
わかりやすすぎる
@kazuhisasaotome2462 4 месяца назад ⁺¹⁰
ありがたい
@ms-pv2og 3 месяца назад ⁺¹
わかりやすい説明ありがとうございます！
トークンの確率分布デコーディングの入力は何ですか？
質問の仕方がおかしかったり、意味が不明瞭でしたらご指摘願います
次の3つの可能性を考えました（一般的にあり得る順で書きました、もしかして、どれでもできそうと思っています）
1 コンテキスト長1000トークンならそれが、アテンションブロック層を経由したすべてのトークン位置の埋め込み
2 コンテキスト長1000トークンならそれが、アテンションブロック層を経由した最後のトークン位置の埋め込み
3 アテンションブロック層を経由した予測する位置にあたるトークン位置の埋め込み
@pamiamin 4 месяца назад ⁺³
素晴らしかった
@yuseikanayama3571 3 месяца назад
素晴らしすぎる動画です
ありがとうございます
@KI-kr1mu 4 месяца назад ⁺¹
世界一わかりやすいです
@mash9118 4 месяца назад ⁺⁶
まさか内部でこんな計算をしてたとは…(慈悲)
@niruru9560 4 месяца назад ⁺¹
Attension解説楽しみにしています
@yukikotanaka3685 3 месяца назад ⁺²
15:45 ヒトラーを足すとかいうパワーワードで笑ってしまった
@ms-pv2og 3 месяца назад
わかりやすい説明ありがとうございます！
トークンの確率分布デコーディングの入力は何ですか？
質問の仕方がおかしかったらご指摘願います
次の3つの可能性を考えました（一般的にあり得る順で書きました、もしかして、どれでもできそうと思っています）
1 コンテキスト長1000トークンならそれが、アテンションブロック層を経由したすべてのトークン位置の埋め込み
2 コンテキスト長1000トークンならそれが、アテンションブロック層を経由した最後のトークン位置の埋め込み
3 アテンションブロック層を経由した予測する位置にあたるトークン位置の埋め込み
@37World 4 месяца назад
神ですね🙏✨🦋ありがとうございます🙇‍♀️🙏🫧
@Ejaau 4 месяца назад
わかりやすい動画をありがとうございます
@Arsche 4 месяца назад ⁺¹⁰
ときに、深い思想を表現してるって思うのは受け手側の勘違いなのかもね
@ms-pv2og 3 месяца назад
わかりやすい説明ありがとうございます！
トークンの埋め込みとトークンの確率分布へのデコーディングについて以下の質問させてください
質問がおかしかったら無視していただいても平気です
以下の理解でいいでしょうか？
1 トークンの埋め込み層は、文脈がちがっても同じ埋め込みが作成される？
その場合、IDはvlookupみたいに検索して返される形式がある？
または行列の掛け算で埋め込む？
2 そうではなく、事前学習時に、埋め込み部分も学習しているので、文脈に応じて違う埋め込みになるでいいでしょうか？
3 エンコーディングとデコーディングの重みは、特に転置すれば同じになるようなものでなく、全然別物である
@ariakia-rs2lh 4 месяца назад ⁺¹
21:30 Unembedding matrix(アンエンべディングマトリックス)を表現行列ってどこかで言ってたのを見たような聞いたような…。忘却の彼方。
@おしの-v8h 4 месяца назад ⁺⁶
ベクトルの向きが同じであるほど、単語の意味に関わってくるのが面白い！
内積を使って、ベクトルの向きが似ているか判断してるんだね
王ーX=男ー女
これをXについて求めると、女王が推測できることとか不思議だ
@applepi314root 4 месяца назад ⁺⁵¹
温度のパラメータそこに意味があったのか...、
@EobardUchihaThawne 4 месяца назад ⁺²
it is how random the output is, if i am not wrong they divide last output by temperature
@新海-f4k 21 день назад ⁺¹
4:20
ファッションモデルの機械学習モデルのような事を話す場合はGPTは混乱するのだろうか
いやまあ人間も混乱する気はするが…
@shotglass8735 4 месяца назад ⁺²
数学の部分は分からなかったけど、イメージは掴めたと思う
つまりChatGPTは文章を生成する仕組みと同じアプローチで質問に答えている訳か
@hellohello-kl1cx 4 месяца назад
次トークン予測の精度向上だけで様々な自然言語処理タスクが解けるようになったのは凄いですよね
@ms-pv2og 3 месяца назад
わかりやすい説明ありがとうございます！
トークナイザーについて以下の質問させてください
１文章をトークンに分けてIDを割り振るものをすべてトークナイザーと言える。
なので、名刺は１、形容詞は２と品詞毎にIDを割り当てるだけのものもトークナイザーと言えるという理解でいいでしょうか？
２ Unigramなどでは、実質的に頻度が低い単語等は同じトークンIDに割り振られる（つまり同じ埋め込みになる）という理解でいいでしょうか？
　　つまり、世の中のトークンナイザーでかっこう、違う単語が同じトークンIDに割り振られるものが存在する
@mizuchin36 4 месяца назад
興味深いです！
@kazutoasai2487 4 месяца назад ⁺³¹
何となくだけど、、、、、これ脳じゃね？
@玲高橋-d6v 4 месяца назад ⁺⁸
"ニューラル"とある通り、脳の神経伝達を参考にモデル化したものです。脳の研究(マカロックピッツさんなど)を機械学習に導入したらうまく行ったので今みんな使ってるわけですね
@RS-303 19 дней назад ⁺³
no
@テスト-y9j 4 месяца назад
わかりやすい。感謝します。
@user-xy2cm6id2z 4 месяца назад
神動画
@kozkoz1 4 месяца назад ⁺²
過去のデータから経験的に多かったパターンを抽出するのでは、革新的な発見は難しいような気がします。そこに人間的な知性の価値が残りそうな。
@kijobreunig3607 4 месяца назад ⁺³
非常にいい視点だと思います。ご指摘のように、観測データ内で発見できないような新理論は、Transformerからは生まれてこないと考えるのが合理的です。例えばアインシュタインの特殊相対性理論などは観測から構築された理論ではないですよね。
一方で、観測データは膨大にあるのに理論が完全に構築できていない分野は実はものすごくたくさんあります。
自然科学の分野では1922のリチャードソンの気象予測から約100年ほどかけて少しずつ気象予測のモデルを開発してきましたが、完璧な予測理論は構築できていません。(天気予報がはずれるのが根拠です)ところが、2017年に生まれたTransformerのモデルが、この伝統的な気象モデルの性能を上回ってしまいました。GraphCastと検索するとその結果が見れると思います。コメント主様が提起することの復唱となりますが、データがあるけど人間が扱えきれていない分野においてTransformerの適用可能性が高い、しかしそうでない分野も同じくらい多く存在するということです。
@kozkoz1 4 месяца назад
数学的カオスとかカタストロフィーのような不連続な現象をTransformerが上手く処理できるか、気になる。
@rararaiton7741 4 месяца назад
AIに携わる人が人がめちゃくちゃ頭いいということだけはよぉーくわかった。
@マツシマケイゴ 4 месяца назад ⁺¹
内積を二つのベクトルがどれくらい揃っているかを表す尺度とすると、内積はベクトルの大きさにも依存するので17:33のような比較には向かないかと思うのですが、実際には正規化など行われているのでしょうか？
数学には自信がなく、誤っていたらすみません。ベクトルの大きさが意味することがわかると理解できるかもしれませんし、次回も楽しみです！
@salade99 Месяц назад
内積が「2つのベクトルがどれくらい揃ってるのか」を表すのではなく、内積の公式にもあるように2つのベクトル間の角度(内積の公式で言うcosθ)が「2つのベクトルがどれくらい揃ってるのか」を表すはずです。
間違ってたらすみません。
@raba-340 4 месяца назад ⁺²
これを、考えてないと断じていいかどうかがよく判らない
脳だって分析したら、そんなの何も考えてないとしか思えない仕組みかもしれない
@ふるのゆうま 4 месяца назад
ソフトマックス関数がカノニカル分布っぽいなーと思ってたら温度が出てきて興奮した
@keyting2 4 месяца назад ⁺¹
次の単語を生成するのにlogitsを参照して変換して使用されているのは分かったけど
さらに次の単語を生成する際に直前のLogitsは再利用できるのかしら
それによって計算速度が圧倒的に変わりそうだけど
@saeye2073 4 месяца назад
それはできないと思います。1単語生成したら、それを入力列に加えてデコーダを最初の段から再び通して別の確率分布を生成する必要があります。そのとき得られる分布の形状は直前の単語ときのものとは全く異なるものです。
@cisnks1862 4 месяца назад ⁺²
それがビームサーチなんじゃないの？
@hatsuyuki3965 4 месяца назад
Key Value Cacheのことかな？
@relocatable_a 17 дней назад
23:55 メモ Temperature
@mejiro9506 4 месяца назад
まってました
@user-GottDerMoralUndEthik 4 месяца назад ⁺⁴
いわゆる天才が、周りに理解されなくなるのは
たぶん脳内に複数の追加の次元を持っていて、ソレは本人としては当たり前で
凡人の扱ってる平面に投影しないで喋ると、聞き手は理解できない
ってことなのではないかと妄想した
私は仕事中、中学生相手を仮想してコミュニケーションするけど
わりと大事だったのでは
@とっぽ-x8g 4 месяца назад ⁺²
これは君向けの動画じゃないよ。勝手に被害者ぶるのやめてね
@user-GottDerMoralUndEthik 4 месяца назад ⁺¹
@@とっぽ-x8g 被害者？誰が誰の被害者？
@user-risemara-shitai 4 месяца назад
@@とっぽ-x8g？天才を殺す凡人とかよく言うやん
@sasensui1000 4 месяца назад ⁺³
素人がアルゴリズムの仕組みを理解するのにはクオリティの高いハウツー
学習モデルの作成そのものは
Pythonの基本的ノウハウがあれは
ライブラリにある学習モデルのインスタンス化一行で済むほどに作成自体は簡単
パラメーターを弄る必要すらない
問題は大規模学習するだけのハードとデータが無い　泣笑
@mizuchin36 4 месяца назад
日本語の解析が難しいのは言葉の含みが深いからなのかなぁ🤔
文脈によっての意味が他の言語よりも複雑とかなのかな。
@gutsnosada 4 месяца назад ⁺²
日本語がハイコンテクストというのはちゃんとした研究ではあまり支持されていないようです。
どちらかというと、文末だけで肯定否定がひっくり返るのが厄介そうな気がしますね
@Arsche 4 месяца назад
でも、それはそれで、何やら哲学的な意味がありそうな気がする
@blue_sky1016 4 месяца назад ⁺⁴
これ見てる人、教養のあるレベル高い人ばかりなんだろうなぁ。
無知なので、この動画の説明にはついていけませんでした😅
@blue_sky1016 4 месяца назад
@@kzrnm ありがとうございます。議論できるだけの知識を持ち合わせておりません。お恥ずかしい限りです。。
@kazutoasai2487 4 месяца назад ⁺¹
風が吹けば桶屋が儲かるの、まだ未発見のパターン見えるやんけ。
@MikuHatsune-np4dj 4 месяца назад
これは本当に「AI」と呼ぶにふさわしいシロモノなのだろうか？
@Ran21050 4 месяца назад ⁺¹
だいすき
@kazutoasai2487 4 месяца назад
なんかこれって、言語のニュアンスとか、記憶を思い出す時の直感と同じじゃない？
@kanda-japan 4 месяца назад
フローチャートにしたら脳の意思決定にGPTは近づいているな。
@hellohello-kl1cx 4 месяца назад ⁺²
当たり前なんだけど、アーキテクチャやトレーニングデータによってそのモデル全体が扱う言語空間がバラバラだから、なんか上手く統合できないかね
@えうかり 4 месяца назад ⁺¹
おもしれえええええ
@donguri356 4 месяца назад
QueryとValueを直接比較せずに間にKeyを入れる理由がよくわかりませんでした。つまり softmax(Q 転置K)V をもっと簡単にQ 転置V みたいな感じにしたらうまくゆかないのでしょうか？　ド素人の質問ですみません、誰か教えてください。
@donguri356 4 месяца назад
すみませんQ 転置V だと結果の次元数が変わってしまいますのでsoftmax(Q 転置V)Vとすべきでしょうか？？　やっぱり難しそうですね～
@ronrei 4 месяца назад ⁺²
こんな複雑な演算の結果が#援○とか投稿させられるインプレゾンビなのか...
@user-bl2zf2mh3g 4 месяца назад ⁺²
gpt-3のパラメータ数って大体判明したんですか？未知数だと思ってました
@hamachi5342 4 месяца назад
GPT-3はOpenAIがまだオープンだった時代のものなので、大体公開されています。
パラメータ数がわからないのはGPT4です。
【訂正】GPT-3.5はパラメータ数は公開されてました。
@古田真-h7u Месяц назад
ruclips.net/video/KlZ-QmPteqM/видео.html　
説明の視覚化　面白い　自動変換　イステムプロンプト　背景知識　エンジニアの分担
アテンション　類似　理解
@tnkats16000 4 месяца назад ⁺¹
なるほど全然わからん
@ぷにぷに-n7n 4 месяца назад
へ〜聞けば聞くほど訳わかんないな
つまり、ドーナツになぜ穴が空いているかってのと同じ⁉︎
@風邪引けば名無し-o7q 4 месяца назад ⁺¹
いいね
@Surimi_KNight_San 4 месяца назад
じゃあなんで間違ってもちゃんと理解してくれるんだろうか
@hellohello-kl1cx 4 месяца назад
人が入力するプロンプトを？
@はつこ-j9k 4 месяца назад ⁺⁴
その間違え方にすら大量の前例があるからじゃないの？
@ココココア 4 месяца назад
最初の五分だけだけど超基礎的な知識は淫夢で知ってたの恐ろしすぎる
@きゃろっと-m2s 4 месяца назад ⁺²
脳は似たようなことをしているわけか
@kazutoasai2487 4 месяца назад
なんかそう思えてきたよね。
@kiwisq 4 месяца назад ⁺¹
直訳しすぎじゃね？
@loveHF13 4 месяца назад ⁺³¹
今日はこれでいいや
@kaj694 4 месяца назад ⁺⁴
猛者
@shimesabadesu 4 месяца назад ⁺¹¹
一番えぐいコメは自ずとコメ欄の底へ沈む。
@みかさ-f1h 4 месяца назад ⁺⁴
@@shimesabadesudeepすぎる
@YTP-np8ql 4 месяца назад
パイクリーチャーかわいいよね
@xxmeguxx7424 4 месяца назад
transformerの断面図イイよね
@くも-l1n 4 месяца назад
神動画

Следующие

Автовоспроизведение

GPT解説2 アテンションの仕組み (Attention, Transformer) | Chapter6, 深層学習