【自然言語処理】tf-idf 単語の情報量を加味した類似度分析【Elasticsearch への道①】

Поделиться
HTML-код
  • Опубликовано: 3 фев 2025

Комментарии • 22

  • @intlkey4043
    @intlkey4043 6 месяцев назад

    ありがとうございます!復習のつもりで拝聴しました。

    • @AIcia_Solid
      @AIcia_Solid  6 месяцев назад +1

      おおー!!!
      ご支援いただきありがとうございます!!!🤩
      とても助かります!!!
      ご支援は次の動画生成に活かします!🎉
      復習がうまく行ったことを祈ります🙏
      ぜひこの理解をご活用ください!

  • @ojt3938
    @ojt3938 3 года назад +1

    elasticsearch勉強してて偶然辿り着きました!
    何気なく見始めたらあっと言う間に最後まで見てしまいました。めっちゃ分かりやすかったです☺️

    • @AIcia_Solid
      @AIcia_Solid  3 года назад

      おおー!それはありがたいお言葉!
      お役に立てて光栄です!😍🎉

  • @arumi-dayo
    @arumi-dayo 3 года назад

    Alciaさんの自然言語処理シリーズ神すぎていつも助かってます!!

    • @AIcia_Solid
      @AIcia_Solid  3 года назад

      それはよかった!(^o^)
      ぜひご活用ください!😍🎉🎉🎉

  • @gorusgod3278
    @gorusgod3278 4 года назад +3

    宝くじの話で、1桁だとlog10で6桁だと6log10になっていて、本当に情報が6倍になると、定義した「情報量」という値が6倍になっってるので納得しました。ありがとうございます😊参考書読んでもピンと来なかったので助かりました。

    • @AIcia_Solid
      @AIcia_Solid  4 года назад

      ご視聴コメントありがとうございます😊
      お役に立てて何よりです!🎉

  • @user-yf6xt4nm9s
    @user-yf6xt4nm9s 3 года назад +1

    idfの説明とてもわかりやすかったです
    logが「情報量」って聞いたことありましたが
    やっとのみこめました

    • @AIcia_Solid
      @AIcia_Solid  3 года назад

      ご視聴コメントありがとうございます!😍🎉
      情報量も面白いんですよー!
      いつか動画作りますので、それもお楽しみください😊

  • @えだ-b3x
    @えだ-b3x 3 года назад

    logの必要ある?と思ってましたが、情報量と解釈すると、しっくりきますね!

    • @AIcia_Solid
      @AIcia_Solid  3 года назад

      そうなのです!
      そして、おかげで情報的にいい性質をもつのです!😍🎉

  • @大の字コンセプト
    @大の字コンセプト 4 года назад

    声とキャラのギャップがいいですね笑笑

    • @AIcia_Solid
      @AIcia_Solid  4 года назад

      よく言われます😎
      通ですね😎😎😎

  • @kazuhisanakatani1209
    @kazuhisanakatani1209 4 года назад

    高校数学入門くらいのレベルで似たもの探しをすると「条件付き確率」ですかね?引いたのが絵札だと分かっているときのクイーンの確率を考えるときも、P(クイーンかつ絵札) に 1/P(絵札) を掛けるので、ちょっと似てるかなと…

    • @AIcia_Solid
      @AIcia_Solid  4 года назад

      たしかに、それも似た計算をしますね😮

  • @吉田篤洋
    @吉田篤洋 2 года назад

    IDFはレア度を情報量としてlogで表記し直したとの説明わかりやすかったです。ありがとうございます
    質問なのですが、なぜTFは確率(割合)のまま表現しているのでしょうか?
    TFも情報量(TFの逆数にlogを取るようなもの)に揃えた方が自然な感じがします。

    • @AIcia_Solid
      @AIcia_Solid  2 года назад

      何が自然化にもよりますが、tf はそのままのほうが、情報理論との接続が良くなります。
      情報理論では良く、Σp log qの形の和が出てくるので、片方はそのままというのが良いのではないかと思います。
      (p, q はなにかの確率分布)
      もちろん、個別の分析の際に、 log tf が活躍することもあるとは思うので、そういう使い方もありかもです!

  • @user-xj8uz4qd5f
    @user-xj8uz4qd5f 5 месяцев назад

    めちゃくちゃわかりやすくてビビりました!
    ただ、ちょっとアバターが邪魔かもです。。

    • @AIcia_Solid
      @AIcia_Solid  5 месяцев назад

      ご視聴コメントありがとうございます!!!
      たしかに、たまに黒板に被ってしまっていますよね、、🙇‍♀️🙇‍♀️
      すみません、以後気をつけつつ動画生成してまいります!🙇‍♀️

  • @GanGimari_Knight
    @GanGimari_Knight 3 года назад

    tf の分子だけ
    ofとかinが使われてるのは何故でしょうか??

    • @AIcia_Solid
      @AIcia_Solid  3 года назад

      集合にしてしまうと、同じ単語が複数回登場することを表現出来ないので、その表記にしました😎