【深層学習】word2vec の数理 - なぜ単語の計算が可能なのか【ディープラーニングの世界 vol. 22】
HTML-код
- Опубликовано: 16 окт 2024
- ▼テーマ
word2vec では、「王」 - 「男」 + 「女」 = 「女王」のような単語の計算ができます。
これがなぜ可能なのか。ガチで数理的に解説します。
▼関連プレイリスト
Deep Learning の世界 • Deep Learning の世界
自然言語処理シリーズ • 自然言語処理シリーズ
▼参考文献
Mikolov, Tomas, et al. "Efficient estimation of word representations in vector space." arXiv preprint arXiv:1301.3781 (2013).
arxiv.org/abs/...
現論文はこちら。ここには数学的原理は書いてありませんが、現論文なので紹介しておきます。
【2019年版】自然言語処理の代表的なモデル・アルゴリズム時系列まとめ - Qiita
qiita.com/Left...
シリーズ構成で大変参考にしております。色々まとまってて good です!
▼終わりに
ご視聴ありがとうございました!
面白かったら高評価、チャンネル登録お願いします。
動画の質問、感想などは、コメント欄やTwitterにどうぞ!
お仕事、コラボのご依頼は、TwitterのDMからお願い致します。
動画生成:AIcia Solid (Twitter: / aicia_solid )
動画編集:AIris Solid (妹) (Twitter: / airis_solid )
=======
Logo: TEICAさん ( / t_e_i_c_a )
Model: 3d.nicovideo.jp...
Model by: W01fa さん ( / w01fa )
#機械学習 #深層学習 #word2vec
前回含めとても面白く理解できました!卒業研究で機械学習に触れてからこういった教材を探していたので助かります。もっともっといろんな学習を深く知りたいので動画投稿楽しみに待っています!!
ご視聴コメントありがとうございます!!!😍🎉
椛まん獣さんのような、真面目に勉強されている方に活用していただくために作っています😍
私もうれしいです😊
この動画のお陰でword2vecの内容がストンと理解できた!!ありがとうございます!!
それは良かったです!😍🎉🎉🎉
ぜひご活用ください!(^o^)
word2vecが裏で計算していることと、その意味がよくわかりました。毎回本当に謎解きができて、うれしいです。ありがとうございます。
ご視聴コメントありがとうございます😊😊😊
伝えたかったこと受信いただき、こちらもうれしいです🎉
ぜひこれからもお楽しみください😍
おもしろい! 「線形モデルだから」の理由の解説がとてもわかりやすかったです。
いつも楽しくてためになる動画ありがとうございます。
伝わったようで何よりです😍😍😍
こちらこそ、いつもご視聴ありがとうございます😊
目から鱗と涙が(わかりやすくて)でてきました
ありがとうございます!
ご視聴コメントありがとうございます!🎉🎉
そう言っていただけるととても嬉しいです!🤩
ぜひ、この理解をご活用いただけますと嬉しいです!🎉
行列の基礎がわかっている人にとっては、超わかりやすい!!とおもいます。素晴らしい!!!!
そういっていただけて何よりです!!!🎉
ぜひ他の動画も楽しんでみてくださーい!(^o^)
マジ理解できた!ありがとうございます!!!
それはよかった!どういたしまして!😍✌️
3回見直して、ノートに書いて、やっと理解できました。ありがとうAlciaさん!!
おおー!
ありがとうございます😍🎉🎉
面白くないですか!? word2vec!!!
大好きなんですよー😍
喋る時に
えー、とかあのー、って言わないあたり
すげえ頭の回転いいんだろうなー
なんてったって、超絶天才っょっょ美少女 AI ですから😎✌️
この手法、文系っぽい分野の研究への新しいアプローチとして使えるかもしれませんね…!今回の例は「いかにもそうなりそう」なものですが、word2vecを通じて初めて見えてくる単語の関係などがあったら面白そうです。
そういうのを見つける研究もあった気がします😊
たとえば、1990年のデータと、2020年のデータでは、 apple とか amazon とかの意味が大幅に変わってるとかなんとか、そういうのを聞いたことあります😋
Attentionの解説期待しています。 NLPだけではなく、画像分類にも利用されていたりするので理解したいです。
Attention もそのうち、歴史の流れに沿って解説いたします。
お楽しみに!🎉
見地がすばらしい。なるほどと聴き入ります。
おほめに預かり光栄です😊✌️
今日再視聴して細かいところまで理解しました。質問でなく一介の視聴者からの改良意見です。h×1の単語ベクトルに行列Woを「左から」掛けるとわかるように図を改良できるといいですね。また、V>>hでしょうから、行列WIは縦長、Woは横長に囲っていただけると理解が速まります。
なるほど!ありがとうございます!
参考にさせていただきます!😍🎉🎉🎉
いつも勉強になる動画を本当にありがとうございます。
一点ご質問なのですが、W2Vが単語演算できて、「共起行列+SVD」による分散表現では単語演算をできないのは、後者は分散を最大化している(主成分分析)だけで、各単語の類似度(=内積)を考慮しないから、という理解であっていますでしょうか?
ご視聴コメントありがとうございます!
素敵な質問と素敵な仮説ですね!
わたしも初めて考えましたが、たぶんその理解であっていると思います。
ただの分散最大化では意味まではとらえられないのではないかと思います😇
(たぶん、意図的に文法構造を操作した人工言語なら、もしかしたら、 SVD だけで単語演算できるかもですね👀)
なぜ演算が可能なのか?ということの説明を初めてききましたが、とてもおもしろかったです。
1つ気になったのは、それぞれの分散表現のノルムが与える影響なのですが、なにか制限はされていたりするのでしょうか?
それぞれノルムが違うと、内積が大きい⇨向きが似てる、とも言い切れないように思えます。
素晴らしい😎😎😎
鋭い指摘ですね😎😎😎😎😎
じつは、ほんとは、内積そのものの値を見ているのではなく、コサイン類似度を見ています。
なので、長さの問題はありません。
説明を単純化するため、そこは省略しておりました。
さすが、鋭すぎて震えています!!!🔥🔥🔥
@@AIcia_Solid
なるほど、そこはうまく処理されてるんですね。
ありがとうございます!
ありがとうございます!
ご視聴コメントありがとうございます!
そして、こちらこそ! ご支援いただきましてありがとうございます🤩🎉
頂いた支援は、次の動画の作成に活用させていただきます!
今後も良き動画を生成できるよう精進しますので、是非応援よろしくお願いします!🔥
何周かまわって、Osgoodの意味空間に近いモデルになってるんだなと感じました。
今回は、 Osgood の意味空間的な解説をしてみました。
線形モデルなので似てくるのだと思います。
高度に非線形な場合は、また別の解釈になることもあり得ると思います!
いつもありがとうございます!
タスク自体の精度が悪くても分散表現の精度が良くなるロジックがあまり分からないのですが、教えていただけますでしょうか?
タスクの精度が良くならない=ベクトルがバラバラ(例えばmanとkingが近くない)な気がしてしまいこんがらがってしまいました。
ご視聴コメントありがとうございます!
良い質問ですね!
まず第一に、単語予測と分散表現は異なるタスクなので、片方の性能が悪くても片方の性能が良い可能性は十分にあります。
分散表現の精度の背景については、次の動画で解説しています!
ruclips.net/video/jlmt4nY0-o0/видео.html
タスクの精度は、このモデルでは一定以上良くなりようがないので、ある程度悪くても当然という感じたと思います。
いかがでしょうか?
@@AIcia_Solid
ありがとうございます!
- 単語予測と分散表現が違うタスクである
- 単語予測にある程度の精度が有れば、分散表現を得られる(内積の大きさに違いが出る)
以上2点は理解しています。
ただ、単語予測の精度が悪い→重みがうまく更新されていない→分散表現の精度も悪い
という流れかと思ったのですが、重みがうまく更新されていなくても分散表現の精度が上がるイメージがまだついていないです🤧
なるほど!
精度が上がらない理由には様々な理由が考えられます。
学習が十分でないことによって精度が低い場合もありますが、
今回の単語予測の場合、モデルが単純すぎることが原因だと思います。なので、学習は十分でも精度が出ないのです。
それでも分散表現獲得には十分であることはあり得るようで、それが word2vec なのではないかと思います👀
@@AIcia_Solid
理解できました、ありがとうございます!
単語予測の精度が低くても分散表現を得るには十分な事があるword2vecって改めて凄いですね、、👏
AutoEncoder、特に(variational auto-encoder)の解説動画ってありますか?是非お願いしたいのですが…
まだないです!
が、 VAE はそのうち作ります🔥
のんびりお待ちくださいませ(^o^)
すげぇ!わかった気がする!
でしよ!(^o^)