GPTとは何か Transformerの視覚化 | Chapter 5, Deep Learning
HTML-код
- Опубликовано: 5 окт 2024
- この動画は3Blue1Brownの動画を東京大学の学生有志団体が翻訳・再編集し公式ライセンスのもと公開しているものです。
チャンネル登録と高評価をよろしくお願いいたします。
日本語版Twitter
/ 3b1bjp
元チャンネル(英語)
/ 3blue1brown
元動画(英語)
• How large language mod...
Check out our new channel Ufolium
• アメリカ大統領選挙の仕組み
Richard Turner's introduction is one of the best starting places:
arxiv.org/pdf/...
Coding a GPT with Andrej Karpathy
• Let's build GPT: from ...
Introduction to self-attention by John Hewitt
web.stanford.e...
History of language models by Brit Cruise:
• ChatGPT: 30 Year Histo...
Paper about examples like the “woman - man” one presented here:
arxiv.org/pdf/...
unembeddingの訳語
embedding 埋め込み に対してunembeddingの日本語訳が見つけられませんでした。しかしembeddingを埋め込みと呼ぶのに対してunembeddingをそのままにするのは不自然であると思われたため日本語訳を試みました。「逆埋め込み」はこれが厳密な意味で逆の操作になっていないことから却下され、「埋め込み」により意味的に対応する「掘り出し」を採用しました。Xやオフラインでの議論の中でこの訳語の複数の提案がありました。
明確にしておくと、これは現時点で一般的な訳語ではありません(そもそも、現在広く使われている訳語が無いと思われるため何に訳しても一般的ではないと思います)。むしろ、一種の提案として受け取られるものであると思います。
Dall-Eの読み
日本語だと「ダリ」と読まれることが多いですが、この名前は「ウォーリー」と「ダリ」のかばん語で、英語では「ドーリー」ということが多いようです。
----------------------------------------
英語版翻訳元チャンネルの支援
/ 3blue1brown
アニメーションはmanimで作られています
github.com/3b1...
英語版公式ソーシャルメディア
Webサイト: www.3blue1brow...
Twitter: / 3blue1brown
Facebook: / 3blue1brown
Reddit: / 3blue1brown
----------------------------------------
Music by Vincent Rubinetti
Download the music on Bandcamp:
vincerubinetti...
Stream the music on Spotify:
open.spotify.c...
7:45 1980年代に大学生の僕はそのアプローチでのAIの勉強をしていました。
LISPやPrologなどのプログラミング言語を駆使してモデルを構築しようと試みられた時代です。
当時それらの言語に最適化した専用のコンピュータまで開発されましたが、結局実用的なAIはできなかった。
その頃既にニューラルネットワークの基礎理論はありましたが主流ではありませんでした。
昨今のAIの隆盛を見ると、新しい時代が来たことをしみじみと感じます。
わかりやすい動画での解説ありがとうございます。
五世代コンピュータと呼ばれるものですね。残念ながらLISP等は一部の分野しか使われずpythonが今やAIの主流言語になりました。時代を感じます
これを見ると全く論理的な思考はしていないのに如何にも正しそうな答えが出てくるのがすごい。
chatGPTが数学苦手な理由がわかる。
わりと回答だけは分かってるときの解説はまし
宿題わからん時に使ってます
使ってみた感じ、求値問題がわりと問題あると思いました。でも抽象概念の証明などは論理もあってわかりやすく解説してくれます
実は人間の脳も似たようなモノなんや…
@AkamisoFAKE 使ってみましたがパイソンを駆使して計算してましたね!脅威的です。
ここまでわかりやすい動画と解説を日本語で見ることが出来て嬉しい
日本語訳本当にありがとうございます
「Unembedding matrix」を「掘り出し行列」と訳しているのが、なんとも数学畑な感じがして興味深いです。
技術畑の人間にとって「embed」は「埋め込み」ではなく「組み込み」のイメージが強いので、原語版を観たときは勝手に「unembedding matrix」を「取り外し行列」と脳内翻訳していました(笑
原語版からわずかな期間での日本語版作成、本当にお疲れ様です。これからも楽しみにしています!
概念がとてもわかりやすい。CPUよりGPUのような単純大量の計算が得意なチップが
必要になる理由が理解できました。翻訳ありがとうございます
翻訳ありがてえ
理解できる限界を遥かに超えてるけど、なんとなく面白い。
日本語版早くない!?
もうできたんか
マジありがたし!
オリジナルの方を先に見てたからある程度頭に入りやすかった, 聞き落としてる部分多くてまたさらに理解が深まった
英語の見てても理解半分だったので助かります!
素晴らしいコンテンツですね。これを翻訳してくた貢献度は爆大
最高の教材
よくこんなの思いつくな、
発想がすごいと思ってたら
コメにいる賢者たちのおかげで
昔から研究されてきた分野なのだと
知ることができた。
仕組みも規模もすごすぎる。
素晴らしすぎる; ;わかりやすい資料ほど英語のものが多かったので、この和訳動画は非常にありがたい; ;
22:21 ソフトマックス関数が量子力学の各エネルギー固有値に粒子が存在する確率を表す関数p_i=exp(-βE_i)/(Σexp(-βE_i) と完全に同じ形なのおもろい
ふんわりとしか理解できないけどこんなのを作り出す人間に感動するよ
素晴らしくわかりやすい!感動した!
人間が言語を扱う上でどういった処理をしているかを数値化すると例えばこういう表現になるんすね
この翻訳動画も担当するヒトが何等かのアルゴリズム使って作り上げてると言い換える事もできるとか
どうしても出来ない場合は近いものに置き換えるとか
トランスフォーマーの説明が分かりやすすぎて泣いた
わかりやすい!翻訳ありがとうございます🤗
このチャンネルがこの動画を出してくれるのはありがたい
まじでありがたいです次もたのむ🙏🙏🙏🙏🙏
わかりやすすぎる
ありがたい
わかりやすい説明ありがとうございます!
トークンの確率分布デコーディングの入力は何ですか?
質問の仕方がおかしかったり、意味が不明瞭でしたらご指摘願います
次の3つの可能性を考えました(一般的にあり得る順で書きました、もしかして、どれでもできそうと思っています)
1 コンテキスト長1000トークンならそれが、アテンションブロック層を経由したすべてのトークン位置の埋め込み
2 コンテキスト長1000トークンならそれが、アテンションブロック層を経由した最後のトークン位置の埋め込み
3 アテンションブロック層を経由した予測する位置にあたるトークン位置の埋め込み
素晴らしかった
素晴らしすぎる動画です
ありがとうございます
世界一わかりやすいです
まさか内部でこんな計算をしてたとは…(慈悲)
Attension解説楽しみにしています
15:45 ヒトラーを足すとかいうパワーワードで笑ってしまった
わかりやすい説明ありがとうございます!
トークンの確率分布デコーディングの入力は何ですか?
質問の仕方がおかしかったらご指摘願います
次の3つの可能性を考えました(一般的にあり得る順で書きました、もしかして、どれでもできそうと思っています)
1 コンテキスト長1000トークンならそれが、アテンションブロック層を経由したすべてのトークン位置の埋め込み
2 コンテキスト長1000トークンならそれが、アテンションブロック層を経由した最後のトークン位置の埋め込み
3 アテンションブロック層を経由した予測する位置にあたるトークン位置の埋め込み
神ですね🙏✨🦋ありがとうございます🙇♀️🙏🫧
わかりやすい動画をありがとうございます
ときに、深い思想を表現してるって思うのは受け手側の勘違いなのかもね
わかりやすい説明ありがとうございます!
トークンの埋め込みとトークンの確率分布へのデコーディングについて以下の質問させてください
質問がおかしかったら無視していただいても平気です
以下の理解でいいでしょうか?
1 トークンの埋め込み層は、文脈がちがっても同じ埋め込みが作成される?
その場合、IDはvlookupみたいに検索して返される形式がある?
または行列の掛け算で埋め込む?
2 そうではなく、事前学習時に、埋め込み部分も学習しているので、文脈に応じて違う埋め込みになるでいいでしょうか?
3 エンコーディングとデコーディングの重みは、特に転置すれば同じになるようなものでなく、全然別物である
21:30 Unembedding matrix(アンエンべディングマトリックス)を表現行列ってどこかで言ってたのを見たような聞いたような…。忘却の彼方。
ベクトルの向きが同じであるほど、単語の意味に関わってくるのが面白い!
内積を使って、ベクトルの向きが似ているか判断してるんだね
王ーX=男ー女
これをXについて求めると、女王が推測できることとか不思議だ
温度のパラメータそこに意味があったのか...、
it is how random the output is, if i am not wrong they divide last output by temperature
4:20
ファッションモデルの機械学習モデルのような事を話す場合はGPTは混乱するのだろうか
いやまあ人間も混乱する気はするが…
数学の部分は分からなかったけど、イメージは掴めたと思う
つまりChatGPTは文章を生成する仕組みと同じアプローチで質問に答えている訳か
次トークン予測の精度向上だけで様々な自然言語処理タスクが解けるようになったのは凄いですよね
わかりやすい説明ありがとうございます!
トークナイザーについて以下の質問させてください
1 文章をトークンに分けてIDを割り振るものをすべてトークナイザーと言える。
なので、名刺は1、形容詞は2と品詞毎にIDを割り当てるだけのものもトークナイザーと言えるという理解でいいでしょうか?
2 Unigramなどでは、実質的に頻度が低い単語等は同じトークンIDに割り振られる(つまり同じ埋め込みになる)という理解でいいでしょうか?
つまり、世の中のトークンナイザーでかっこう、違う単語が同じトークンIDに割り振られるものが存在する
興味深いです!
何となくだけど、、、、、これ脳じゃね?
"ニューラル"とある通り、脳の神経伝達を参考にモデル化したものです。脳の研究(マカロックピッツさんなど)を機械学習に導入したらうまく行ったので今みんな使ってるわけですね
no
わかりやすい。感謝します。
神動画
過去のデータから経験的に多かったパターンを抽出するのでは、革新的な発見は難しいような気がします。そこに人間的な知性の価値が残りそうな。
非常にいい視点だと思います。ご指摘のように、観測データ内で発見できないような新理論は、Transformerからは生まれてこないと考えるのが合理的です。例えばアインシュタインの特殊相対性理論などは観測から構築された理論ではないですよね。
一方で、観測データは膨大にあるのに理論が完全に構築できていない分野は実はものすごくたくさんあります。
自然科学の分野では1922のリチャードソンの気象予測から約100年ほどかけて少しずつ気象予測のモデルを開発してきましたが、完璧な予測理論は構築できていません。(天気予報がはずれるのが根拠です)ところが、2017年に生まれたTransformerのモデルが、この伝統的な気象モデルの性能を上回ってしまいました。GraphCastと検索するとその結果が見れると思います。コメント主様が提起することの復唱となりますが、データがあるけど人間が扱えきれていない分野においてTransformerの適用可能性が高い、しかしそうでない分野も同じくらい多く存在するということです。
数学的カオスとかカタストロフィーのような不連続な現象をTransformerが上手く処理できるか、気になる。
AIに携わる人が人がめちゃくちゃ頭いいということだけはよぉーくわかった。
内積を二つのベクトルがどれくらい揃っているかを表す尺度とすると、内積はベクトルの大きさにも依存するので17:33のような比較には向かないかと思うのですが、実際には正規化など行われているのでしょうか?
数学には自信がなく、誤っていたらすみません。ベクトルの大きさが意味することがわかると理解できるかもしれませんし、次回も楽しみです!
内積が「2つのベクトルがどれくらい揃ってるのか」を表すのではなく、内積の公式にもあるように2つのベクトル間の角度(内積の公式で言うcosθ)が「2つのベクトルがどれくらい揃ってるのか」を表すはずです。
間違ってたらすみません。
これを、考えてないと断じていいかどうかがよく判らない
脳だって分析したら、そんなの何も考えてないとしか思えない仕組みかもしれない
ソフトマックス関数がカノニカル分布っぽいなーと思ってたら温度が出てきて興奮した
次の単語を生成するのにlogitsを参照して変換して使用されているのは分かったけど
さらに次の単語を生成する際に直前のLogitsは再利用できるのかしら
それによって計算速度が圧倒的に変わりそうだけど
それはできないと思います。1単語生成したら、それを入力列に加えてデコーダを最初の段から再び通して別の確率分布を生成する必要があります。そのとき得られる分布の形状は直前の単語ときのものとは全く異なるものです。
それがビームサーチなんじゃないの?
Key Value Cacheのことかな?
23:55 メモ Temperature
まってました
いわゆる天才が、周りに理解されなくなるのは
たぶん脳内に複数の追加の次元を持っていて、ソレは本人としては当たり前で
凡人の扱ってる平面に投影しないで喋ると、聞き手は理解できない
ってことなのではないかと妄想した
私は仕事中、中学生相手を仮想してコミュニケーションするけど
わりと大事だったのでは
これは君向けの動画じゃないよ。勝手に被害者ぶるのやめてね
@@とっぽ-x8g 被害者?誰が誰の被害者?
@@とっぽ-x8g?天才を殺す凡人とかよく言うやん
素人がアルゴリズムの仕組みを理解するのにはクオリティの高いハウツー
学習モデルの作成そのものは
Pythonの基本的ノウハウがあれは
ライブラリにある学習モデルのインスタンス化一行で済むほどに作成自体は簡単
パラメーターを弄る必要すらない
問題は大規模学習するだけのハードとデータが無い 泣笑
日本語の解析が難しいのは言葉の含みが深いからなのかなぁ🤔
文脈によっての意味が他の言語よりも複雑とかなのかな。
日本語がハイコンテクストというのはちゃんとした研究ではあまり支持されていないようです。
どちらかというと、文末だけで肯定否定がひっくり返るのが厄介そうな気がしますね
でも、それはそれで、何やら哲学的な意味がありそうな気がする
これ見てる人、教養のあるレベル高い人ばかりなんだろうなぁ。
無知なので、この動画の説明にはついていけませんでした😅
@@kzrnm ありがとうございます。議論できるだけの知識を持ち合わせておりません。お恥ずかしい限りです。。
風が吹けば桶屋が儲かるの、まだ未発見のパターン見えるやんけ。
これは本当に「AI」と呼ぶにふさわしいシロモノなのだろうか?
だいすき
なんかこれって、言語のニュアンスとか、記憶を思い出す時の直感と同じじゃない?
フローチャートにしたら脳の意思決定にGPTは近づいているな。
当たり前なんだけど、アーキテクチャやトレーニングデータによってそのモデル全体が扱う言語空間がバラバラだから、なんか上手く統合できないかね
おもしれえええええ
QueryとValueを直接比較せずに間にKeyを入れる理由がよくわかりませんでした。つまり softmax(Q 転置K)V を もっと簡単にQ 転置V みたいな感じにしたらうまくゆかないのでしょうか? ド素人の質問ですみません、誰か教えてください。
すみませんQ 転置V だと結果の次元数が変わってしまいますのでsoftmax(Q 転置V)Vとすべきでしょうか?? やっぱり難しそうですね~
こんな複雑な演算の結果が#援○とか投稿させられるインプレゾンビなのか...
gpt-3のパラメータ数って大体判明したんですか?未知数だと思ってました
GPT-3はOpenAIがまだオープンだった時代のものなので、大体公開されています。
パラメータ数がわからないのはGPT4です。
【訂正】GPT-3.5はパラメータ数は公開されてました。
ruclips.net/video/KlZ-QmPteqM/видео.html
説明の視覚化 面白い 自動変換 イステムプロンプト 背景知識 エンジニアの分担
アテンション 類似 理解
なるほど全然わからん
へ〜聞けば聞くほど訳わかんないな
つまり、ドーナツになぜ穴が空いているかってのと同じ⁉︎
いいね
じゃあなんで間違ってもちゃんと理解してくれるんだろうか
人が入力するプロンプトを?
その間違え方にすら大量の前例があるからじゃないの?
最初の五分だけだけど超基礎的な知識は淫夢で知ってたの恐ろしすぎる
脳は似たようなことをしているわけか
なんかそう思えてきたよね。
直訳しすぎじゃね?
今日はこれでいいや
猛者
一番えぐいコメは自ずとコメ欄の底へ沈む。
@@shimesabadesudeepすぎる
パイクリーチャーかわいいよね
transformerの断面図イイよね
神動画