【深層学習】GPT-3 ①-1 モデルと Sparse Transformer について【ディープラーニングの世界vol.39】

Поделиться
HTML-код
  • Опубликовано: 1 янв 2025

Комментарии • 18

  • @karincha
    @karincha Год назад

    ChatGPTを使うようになって、自然言語処理などについて興味をもちだした初心者です。
    少しづつ動画を拝見して勉強させていただいています。
    さて、最後の「GPT-3のモデルの全体像」のところで、GPT-2との違いは、Sparse Multi-Head Attentionを使っているところだと説明をされていましたが、ChatGPT(GPT-3.5)に聞いてみたところ
    「GPT-2とGPT-3は、ともにマルチヘッドアテンションを使用しています。」
    というので、GPT-4にも聞いてみたら
    「GPT-3では、Multi-Head Attentionが使用されています。Multi-Head Attentionは、複数のアテンションヘッドを使用して、異なるスケールや特徴に対して同時に注意を払うことができるメカニズムです。これにより、モデルはより柔軟に文脈情報を捉えることが可能になります。Sparse Multi-Head Attentionについては、GPT-3では使用されていません。Sparse Multi-Head Attentionは、アテンション計算を疎行列によって効率化し、メモリ使用量と計算コストを削減することができるアプローチです。しかし、GPT-3では通常のMulti-Head Attentionが採用されており、Sparse Multi-Head Attentionは特定の研究やアプリケーションで試験的に用いられることがあります。」と返答されました。
    私には全く知識がないので、どちらが正解かがわかりません。お返事いただければ幸いです。

    • @AIcia_Solid
      @AIcia_Solid  Год назад +1

      ご視聴コメントありがとうございます!
      GPT-3 に Sparse なものが利用されているというのは、論文に書かれている内容なので、こちらが正しいかと思います。
      また、ChatGPT は生成モデルであり、確率的にそれっぽい文章を生成しているだけで、内容的に正しいことを言ってくれるわけではありません。
      ChatGPT などの生成モデルは事実確認には向かないので、Google 検索や、論文や公式ドキュメントなどの内容調査をされるのが良いかと思います!

    • @karincha
      @karincha Год назад

      ​@AIcia Solid Project さん
      お返事ありがとうございます。おっしゃっていることは理解しています。
      もちろんコメントをする前に、Googleで検索しましたが、該当するような内容をみつけられなかったので、ご質問いたしました。お手数おかけしてすみません。
      今違う聞き方をしたら、GPT-3でも
      「おっしゃる通り、GPT-2とGPT-3はどちらもマルチヘッドアテンションを使用しています。ただし、GPT-3ではSparse Multi-Head Attentionと呼ばれるスパースなマスキングが使用されており、この点がGPT-2との違いの一つになっています。」と返事がありました😅

    • @AIcia_Solid
      @AIcia_Solid  Год назад +5

      なるほど!
      ただ、基本的に、事実の確認には ChatGPT は使わないほうがいいかと思います、、、。(かなり激しく強めに非推奨です)
      ググってだめなら、公式ドキュメントか論文が最も良いですよ!
      慣れれば普通なのと、意外とみんなやってたりするので、AI 駆使しつつ論文を読むトレーニングをされることをおすすめします!

  • @ta-hj2ck
    @ta-hj2ck 3 года назад +1

    いつも大変勉強になる動画をありがとうございます!
    Multi-Head Attentionの軽量化の部分の図でつまずいてしまいました。
    ・セルは具体的に何を表しているのでしょうか。
    ・この深い層と浅い層の間はどんな処理があるのでしょうか。
    など、図について補足頂ければ嬉しいです。(Multi-Head Attentionについては過去の動画を拝見しております。)

    • @AIcia_Solid
      @AIcia_Solid  3 года назад

      ご質問いただきありがとうございます!😍
      丸の一つ一つは、MHA に投入されるベクトルです。
      下側が MHA の入力、上川が MHA の出力です。操作は MHA の Multi-Head(Q, K, V) (+ mask)があります。
      こんな感じです!
      疑問の解消にはなりましたでしょうか?😊

    • @ta-hj2ck
      @ta-hj2ck 3 года назад

      @@AIcia_Solid
      お忙しい中ご回答頂きありがとうございます!😊
      なるほど〜、あるセルを計算する時に、それ以前の情報しか見ないのはmaskされたMHAだからでしょうか?

    • @AIcia_Solid
      @AIcia_Solid  3 года назад

      まさにその通りです!(^o^)

    • @ta-hj2ck
      @ta-hj2ck 3 года назад

      @@AIcia_Solid
      そうですよね!単純なところで変に混乱してしまっていました...
      お忙しい中、わざわざお返事頂きありがとうございました🙇‍♂️🙇‍♂️🙇‍♂️
      次回の動画も楽しみにしております!!!

    • @AIcia_Solid
      @AIcia_Solid  3 года назад

      いえ、素敵な質問ありがとうございました!😍🎉
      これからもぜひお楽しみください!🎉

  • @kochikyushu
    @kochikyushu 3 года назад +3

    GPT3の学習だけでも数億円以上掛かってそうですね

    • @AIcia_Solid
      @AIcia_Solid  3 года назад +5

      そーなんですよー!
      大規模基礎研究ってそういうもんですよね😊

  • @fudousanphp
    @fudousanphp 2 года назад

    openAIてイーロン・マスクですよね。超金持ちだから金銭には問題ないですよねw

    • @AIcia_Solid
      @AIcia_Solid  2 года назад

      ですね!(^o^)
      たしかにそう考えればそうかもですね(笑)

  • @kentoo_1
    @kentoo_1 3 года назад

    真打登場!

  • @ヒマジン-d7f
    @ヒマジン-d7f Год назад

    ChatGPTってGPTは次単語予測しているだけなのに
    QAで回答できるのはおかしいのではないのでしょうか
    もちろん、文章によってはQAで返す場合もあるとは思いますが
    毎回、QAで回答を作成し、回答途中で言葉が止まったりしないのは不思議でなりません。
    私は、GPT2とBertをHuggingfaceにあったものでしか触ったことがないため
    詳しく動作の流れがわかりません。
    もし、ご回答いただければ幸いです。

    • @AIcia_Solid
      @AIcia_Solid  Год назад +3

      ご視聴コメントありがとうございます!
      鋭いご指摘ですね!
      まさに、生の GPT-3 では、ChatGPT のような返答をすることはできません。
      その後、RLHF (Reinforcement Learning with Human Feedback) という技術を用いて学習された InstructGPT が登場し、そのさらなる発展版が GPT-3.5 と言われています。
      RLHF では、まさに、人間好みの回答になるように、人間が新しく教師データを作り、それに合わせて追加学習する手法です。
      まだ RLHF や InstructGPT に関する動画はありませんが、
      論文を読んでいた配信があるので、興味あれば見ていただいても良いかもしれません。
      (その概要欄に原論文へのリンクもあるので、興味あればそちらもぜひ!)
      ↓論文読み配信↓
      ruclips.net/video/G4WKwzNOY_0/видео.html