【深層学習】RNNLM - 自然言語処理に革命を起こした RNN について【ディープラーニングの世界 vol. 20】

Поделиться
HTML-код
  • Опубликовано: 1 янв 2025

Комментарии • 19

  • @yukio_takagi6429
    @yukio_takagi6429 4 года назад +1

    毎回、解説ありがとうございます。1つ質問させてください。w(t)+s(t-1)はベクトルの足し算ですが、次元が合わないのではないでしょうか?

    • @AIcia_Solid
      @AIcia_Solid  4 года назад +4

      w(t) と s(t-1) は足しているのではなくて、縦につなげているのです。
      3次元のベクトルと、5次元のベクトルを縦につなげて、8次元にしている感じです。
      伝わりますでしょうか?

    • @yukio_takagi6429
      @yukio_takagi6429 4 года назад +1

      @@AIcia_Solid なるほど、すっきりしました。ありがとうございます。

  • @susumuyoshida2069
    @susumuyoshida2069 2 года назад

    いつも楽しく拝見しています。
    質問です。
    今回の動画の一番最後の部分で出てきたことですが
    BPTT と通常のback-propagation の違いがよくわかりませんでした。
    もう少し詳しく教えていただけますか?
    基本的な質問ですみません。

    • @AIcia_Solid
      @AIcia_Solid  2 года назад

      BPTT も BP の一種なので、大した違いはありません!
      かんたんに言うなら、y^{(k)} 由来の誤差情報が、BP を通して t = k-1, k-2,..., 1, 0 まで流れていくのが BPTT で、今回の RNNLM では、 t = k のところの処理部分だけのパラメタ更新しかしていないという感じです。
      伝わりますでしょうか、、?🙇‍♀️

    • @susumuyoshida2069
      @susumuyoshida2069 2 года назад

      @@AIcia_Solid
      ありがとうございます。
      (AIcia さんの動画に限らず)BPTTを見るたびに
      BPTTって「勾配が時間軸を遡る方向に伝わるBP」にBPTTって大げさな名前をつけただけじゃね?
      って思うのですが、そんな理解でいいですか?

    • @AIcia_Solid
      @AIcia_Solid  2 года назад

      だいたいそんなのでいいとおもいます😊
      実装や計算にあたってメモリ管理(など)が若干大変なので、そこは乗り越えるべき壁があったということだけなんとなく感じていれば良い気がします😊

    • @susumuyoshida2069
      @susumuyoshida2069 2 года назад

      @@AIcia_Solid わかりました。
      ありがとうございます。
      いただいた説明を元に、原論文を読んでみます。

  • @s.t6238
    @s.t6238 4 года назад +2

    2010年ってことは、AlexNetよりも前なんですね

    • @AIcia_Solid
      @AIcia_Solid  4 года назад +3

      そうなんです!
      AlexNet ほどは騒がれなかったと思いますが、この時代も研究はあったのです😊

  • @ken8392
    @ken8392 3 года назад

    次の単語予測モデルなのにまともな文章を選択するというのがいまいち分からなかったです。
    文章候補から文章を選択する基準はその文の単語の同時確率でしょうか?例えばw_1, w_2, w_3という文があれば、
    p(w_1) × p(w_2 | w_1) × p(w_3 | w_1, w_2) = p(w_1, w_2, w_3) みたいな感じです。

    • @AIcia_Solid
      @AIcia_Solid  3 года назад +1

      鋭い質問ですね!
      まさにその通りです!
      最近では、 length penalty など様々な工夫も使われていますので、そういうのも合わせてみてみるとよいと思います🎉

    • @ken8392
      @ken8392 3 года назад

      ありがとうございます!同時確率だと単語数が少ない方ががすごく有利だと思っていたのですが、length penaltyというものがあるんですね。勉強になりました!

  • @ken8392
    @ken8392 3 года назад

    論文だと活性化関数はtanhではなく、sigmoidになってますね。

    • @AIcia_Solid
      @AIcia_Solid  3 года назад +1

      ほんとだ!ありがとうございます!
      概要欄に追記しました!

  • @manbodama
    @manbodama 3 года назад

    20:00 教師強制とは違うんかな

    • @AIcia_Solid
      @AIcia_Solid  3 года назад

      教師強制というのは始めて聞きました👀
      どのような概念ですか?

    • @manbodama
      @manbodama 3 года назад

      @@AIcia_Solid 教師強制はRNNの学習時、入力値に1つ前の出力値を使うのではなく教師ラベルを用いるというものみたいです。そうすることで、推論時と学習時の条件は変わってしまうものの、学習が安定し、学習を1ステップごとに区切ることができるので並列化ができると習いました。GRUやLSTMが出る前に色々試行錯誤された手法の一つらしいです。
      今回のとはちょっと違うみたいです。

    • @AIcia_Solid
      @AIcia_Solid  3 года назад

      なるほど!
      そんなのがあるんですね!
      ありがとうございます!🎉
      今回のはそれとは少し違います!
      誤差逆伝播の伝播範囲が狭いという感じです✌️