Размер видео: 1280 X 720853 X 480640 X 360
Показать панель управления
Автовоспроизведение
Автоповтор
毎回、解説ありがとうございます。1つ質問させてください。w(t)+s(t-1)はベクトルの足し算ですが、次元が合わないのではないでしょうか?
w(t) と s(t-1) は足しているのではなくて、縦につなげているのです。3次元のベクトルと、5次元のベクトルを縦につなげて、8次元にしている感じです。伝わりますでしょうか?
@@AIcia_Solid なるほど、すっきりしました。ありがとうございます。
いつも楽しく拝見しています。質問です。今回の動画の一番最後の部分で出てきたことですがBPTT と通常のback-propagation の違いがよくわかりませんでした。もう少し詳しく教えていただけますか?基本的な質問ですみません。
BPTT も BP の一種なので、大した違いはありません!かんたんに言うなら、y^{(k)} 由来の誤差情報が、BP を通して t = k-1, k-2,..., 1, 0 まで流れていくのが BPTT で、今回の RNNLM では、 t = k のところの処理部分だけのパラメタ更新しかしていないという感じです。伝わりますでしょうか、、?🙇♀️
@@AIcia_Solid ありがとうございます。(AIcia さんの動画に限らず)BPTTを見るたびにBPTTって「勾配が時間軸を遡る方向に伝わるBP」にBPTTって大げさな名前をつけただけじゃね?って思うのですが、そんな理解でいいですか?
だいたいそんなのでいいとおもいます😊実装や計算にあたってメモリ管理(など)が若干大変なので、そこは乗り越えるべき壁があったということだけなんとなく感じていれば良い気がします😊
@@AIcia_Solid わかりました。ありがとうございます。いただいた説明を元に、原論文を読んでみます。
2010年ってことは、AlexNetよりも前なんですね
そうなんです!AlexNet ほどは騒がれなかったと思いますが、この時代も研究はあったのです😊
次の単語予測モデルなのにまともな文章を選択するというのがいまいち分からなかったです。文章候補から文章を選択する基準はその文の単語の同時確率でしょうか?例えばw_1, w_2, w_3という文があれば、p(w_1) × p(w_2 | w_1) × p(w_3 | w_1, w_2) = p(w_1, w_2, w_3) みたいな感じです。
鋭い質問ですね!まさにその通りです!最近では、 length penalty など様々な工夫も使われていますので、そういうのも合わせてみてみるとよいと思います🎉
ありがとうございます!同時確率だと単語数が少ない方ががすごく有利だと思っていたのですが、length penaltyというものがあるんですね。勉強になりました!
論文だと活性化関数はtanhではなく、sigmoidになってますね。
ほんとだ!ありがとうございます!概要欄に追記しました!
20:00 教師強制とは違うんかな
教師強制というのは始めて聞きました👀どのような概念ですか?
@@AIcia_Solid 教師強制はRNNの学習時、入力値に1つ前の出力値を使うのではなく教師ラベルを用いるというものみたいです。そうすることで、推論時と学習時の条件は変わってしまうものの、学習が安定し、学習を1ステップごとに区切ることができるので並列化ができると習いました。GRUやLSTMが出る前に色々試行錯誤された手法の一つらしいです。今回のとはちょっと違うみたいです。
なるほど!そんなのがあるんですね!ありがとうございます!🎉今回のはそれとは少し違います!誤差逆伝播の伝播範囲が狭いという感じです✌️
毎回、解説ありがとうございます。1つ質問させてください。w(t)+s(t-1)はベクトルの足し算ですが、次元が合わないのではないでしょうか?
w(t) と s(t-1) は足しているのではなくて、縦につなげているのです。
3次元のベクトルと、5次元のベクトルを縦につなげて、8次元にしている感じです。
伝わりますでしょうか?
@@AIcia_Solid なるほど、すっきりしました。ありがとうございます。
いつも楽しく拝見しています。
質問です。
今回の動画の一番最後の部分で出てきたことですが
BPTT と通常のback-propagation の違いがよくわかりませんでした。
もう少し詳しく教えていただけますか?
基本的な質問ですみません。
BPTT も BP の一種なので、大した違いはありません!
かんたんに言うなら、y^{(k)} 由来の誤差情報が、BP を通して t = k-1, k-2,..., 1, 0 まで流れていくのが BPTT で、今回の RNNLM では、 t = k のところの処理部分だけのパラメタ更新しかしていないという感じです。
伝わりますでしょうか、、?🙇♀️
@@AIcia_Solid
ありがとうございます。
(AIcia さんの動画に限らず)BPTTを見るたびに
BPTTって「勾配が時間軸を遡る方向に伝わるBP」にBPTTって大げさな名前をつけただけじゃね?
って思うのですが、そんな理解でいいですか?
だいたいそんなのでいいとおもいます😊
実装や計算にあたってメモリ管理(など)が若干大変なので、そこは乗り越えるべき壁があったということだけなんとなく感じていれば良い気がします😊
@@AIcia_Solid わかりました。
ありがとうございます。
いただいた説明を元に、原論文を読んでみます。
2010年ってことは、AlexNetよりも前なんですね
そうなんです!
AlexNet ほどは騒がれなかったと思いますが、この時代も研究はあったのです😊
次の単語予測モデルなのにまともな文章を選択するというのがいまいち分からなかったです。
文章候補から文章を選択する基準はその文の単語の同時確率でしょうか?例えばw_1, w_2, w_3という文があれば、
p(w_1) × p(w_2 | w_1) × p(w_3 | w_1, w_2) = p(w_1, w_2, w_3) みたいな感じです。
鋭い質問ですね!
まさにその通りです!
最近では、 length penalty など様々な工夫も使われていますので、そういうのも合わせてみてみるとよいと思います🎉
ありがとうございます!同時確率だと単語数が少ない方ががすごく有利だと思っていたのですが、length penaltyというものがあるんですね。勉強になりました!
論文だと活性化関数はtanhではなく、sigmoidになってますね。
ほんとだ!ありがとうございます!
概要欄に追記しました!
20:00 教師強制とは違うんかな
教師強制というのは始めて聞きました👀
どのような概念ですか?
@@AIcia_Solid 教師強制はRNNの学習時、入力値に1つ前の出力値を使うのではなく教師ラベルを用いるというものみたいです。そうすることで、推論時と学習時の条件は変わってしまうものの、学習が安定し、学習を1ステップごとに区切ることができるので並列化ができると習いました。GRUやLSTMが出る前に色々試行錯誤された手法の一つらしいです。
今回のとはちょっと違うみたいです。
なるほど!
そんなのがあるんですね!
ありがとうございます!🎉
今回のはそれとは少し違います!
誤差逆伝播の伝播範囲が狭いという感じです✌️