OpenAI最新モデル!OpenAI o1-preview, o1-miniについて解説してみた

Поделиться
HTML-код
  • Опубликовано: 5 ноя 2024

Комментарии • 59

  • @sankaku813
    @sankaku813 Месяц назад +46

    早速使ってみました。問題:「ある地方では、1年間に平均3回台風が通過する。この1年間に台風が通過する回数をXとし、これが平均u=3のポアソン分布P(3)に従うものとする。この時、この地方に5回以上台風が通過する確率を求めよ。」(大学レベルの「ポアソン分布」の問題です)「約18.47%」と正解しました。びっくりです!

    • @aivtuber2866
      @aivtuber2866  Месяц назад +5

      統計学にも強そうですね!

    • @whilewecan
      @whilewecan Месяц назад +1

      大学レベル?定型的なポアソン分布の問題でこんなのできて当たり前だと思うが。

    • @sankaku813
      @sankaku813 Месяц назад +5

      @@whilewecan AIにできることがすごい、って言ってるのに。読解力ないのバレるよ。

    • @Polta_Sub
      @Polta_Sub Месяц назад +6

      ​@@whilewecan言語モデルってそもそもそんな計算出来るように作られてませんからね
      入力文や自分の返答文からそれっぽい回答文を言語的・確率的に生成するだけなんですよ
      中にポアソン分布の計算プログラムが存在するわけではないのにこの精度で正解できるのはすごいことです

    • @SO-wg4yb
      @SO-wg4yb Месяц назад +6

      この問題は4でも4oでも解けましたね。数式に結びつける部分に曖昧さがないので結構楽なのでは。
      「ある地方では、1年間に平均3回台風が通過する。この時この地方に5回以上、台風が通過する確率を求めよ。」 でも、4、4o、o1いずれも解けてますね。

  • @motisnow7667
    @motisnow7667 Месяц назад +2

    いつもありがとうございます!とても分かりやすかったです。o1-preview試してみます。

    • @aivtuber2866
      @aivtuber2866  Месяц назад

      そう言っていただけて良かったです!
      o1-preview是非試してみてください😊

  • @ない-r3r
    @ない-r3r Месяц назад +14

    使ってみたけど特定のタスクじゃなかったら4oとか3.5 SonnetとかGemini 1.5 Proでいい感じだった
    OpenAI自身も言ってるけど特化モデルであって4oの上位互換ではないので触る人はそこ注意
    GPT-5とか3.5 Opus早く出ないかなあ

    • @aivtuber2866
      @aivtuber2866  Месяц назад +1

      結構使い分けするの難しいですよね!
      個人的に3.5 Opus楽しみです・・・!

  • @kenty240
    @kenty240 Месяц назад +2

    o系列のモデルがAGIのプロトタイプみたいな形で発展してくれるとアツい。頑張れopenAI。

  • @B0A0A
    @B0A0A Месяц назад +6

    ノノグラムは日本だと「お絵かきロジック」などと言う名称で親しまれています
    これを解くと縦5行目までで大きな円を書き、最後の行で右下に点を打つので、「q」の形になります

    • @mail7036
      @mail7036 Месяц назад +1

      エグゥ……

    • @aivtuber2866
      @aivtuber2866  Месяц назад

      ありがとうございます!笑
      「お絵描きロジック」知らなかったです・・・!

  • @JS-hg2vn
    @JS-hg2vn Месяц назад +3

    なんか、普通のエージェントテクニックを従来のに導入したのと変わらない気がするんですが。値段は上がってないみたいだけど、その分使用回数制限されてるから、どうなんかね。O1は、今までの4oでCOT+アルファと言われても驚かないけど。商用モデルだしてるところに期待されてるのは素の言語モデル自体の性能向上だと思ってるので、この方向性は、どうなんだろう。

  • @yutoriotsu8848
    @yutoriotsu8848 Месяц назад +1

    細かいルールに基づく専門的な判断はこれまでgpt-4oとかだと論理的正しさの保証ができなかったんですけど
    これの価格が安くなってAPIで使えるようになれば結構ゲームチェンジャーな気がしますね
    ただ相変わらずミスはするし変な間違いを犯すみたいなので人間のチェックは必要でしょうけど

  • @G.M.C.
    @G.M.C. Месяц назад +1

    なるほど
    ありがとうございます

    • @aivtuber2866
      @aivtuber2866  Месяц назад

      コメントありがとうございます!
      少しでも役に立ったようでよかったです!

  • @SSS-100M
    @SSS-100M Месяц назад +8

    最初はすごいなと思ったけど、よくよく考えれば、これってGPT4oに丁寧なプロンプト入れるのと変わらなくない? 難しい問題とかも解き方を丁寧に教えてあげればできるし。新しいタスクとかなら使えるかもだけど、既知のタスクならGPT4oの方が良さそう。

    • @aivtuber2866
      @aivtuber2866  Месяц назад +2

      おっしゃるようにGPT4oでも同じような事ができますよね!
      OpenAIの公式の例を見ると、出力している思考が異常に長いので
      あの長さを一発で出すのは、o1みたいにモデル自体の設計を変えないと難しいかもですが・・・!

  • @hitsuki_karasuyama
    @hitsuki_karasuyama Месяц назад +3

    論理的思考ができるようになったから数学が解けるようになったのか
    数学を解けるように訓練したら論理的思考ができるようになったのか

  • @belcrod5
    @belcrod5 Месяц назад +2

    Unity android build (gradle)の不具合をo1 さんと一緒に頑張っています 4oと比べると明らかに精度は上がっています。より論理的になっています
    4oは即答を求められて陳腐な回答をした感はあったけど
    o1はステップバイステップをより高度に実行したイメージだと思いました
    ちなみに半日Unity android buildの不具合を頑張っていますが解決していません
    これはo1が無能で無くAndroid gradle が複雑すぎるにでないかなと思っていますw

    • @寺内宏之
      @寺内宏之 Месяц назад +2

      ソフトウェアエンジニアよりかはシステムエンジニアよりの作業ですね。私もExpoを通してGradle使ってますが、あれはわけが分かりません。

  • @1192tucool
    @1192tucool Месяц назад +1

    パズルはピクロスですね
    行と列の数字が、×となる個数で、条件に基づく箇所を×として表せば
    まさに、Qという文字が描かれます

    • @aivtuber2866
      @aivtuber2866  Месяц назад

      ありがとうございます😊
      ピクロス初めて聞きました・・・!

  • @7timesInversed10to11
    @7timesInversed10to11 Месяц назад +5

    残念ながら複雑な開発は出来ないみたいで、コードやメッセージの間で矛盾する事象をいくつも確認しました(4oと同じレベル)。それどころか、自分が処理できない論理は「利用規約違反」のフラグをつけて、回答を停止するという暴挙にあってます😭

    • @kone2018
      @kone2018 Месяц назад +1

      まだプレビュー版だからね

    • @aivtuber2866
      @aivtuber2866  Месяц назад +1

      @7timesInversed10to11 利用規約違反フラグ付けられるのは暴挙っすね・・・

  • @石川大介-z9t
    @石川大介-z9t Месяц назад +10

    あー、しょうもないことに o1-mini 使ってしまった〜🤯

    • @aivtuber2866
      @aivtuber2866  Месяц назад +1

      ありがとうございます!🙇‍♂️
      そう言って貰えてありがたいです!

  • @nyankichi1504
    @nyankichi1504 Месяц назад +1

    なんとなくこれだと4oでCoTやった方が軌道修正もしやすくていい気がしてしまうけどどうなのかな

    • @aivtuber2866
      @aivtuber2866  Месяц назад

      確かにo1思考が異常に長いので
      全然違う方向に思考していったら
      めっちゃ無駄になりそうですね・・・🤔笑

  • @shoronpoo
    @shoronpoo Месяц назад +1

    問題を分解してスケッチを描いていくように考えている。データサイエンティスト要らなくなるかもしれない

  • @B0A0A
    @B0A0A Месяц назад +4

    こういうときのために前払いしてTier4にはしてたのですが
    4に降りてくるのが遅そうなら追加で課金しようかと思っています
    4oのときはすぐだったのでとりあえず様子見です

    • @aivtuber2866
      @aivtuber2866  Месяц назад +1

      Tier4でしたらかなりAPI使われているんですね・・・!😲

    • @B0A0A
      @B0A0A Месяц назад

      @@aivtuber2866
      消費しなくてもクレジットだけ先に買っておけばTierは上がりますよ!

  • @RS-303
    @RS-303 Месяц назад +1

    数学ができるということなのでやっと使い物になる😂

  • @shinka45
    @shinka45 Месяц назад +1

    使ってみましたが月30回しか使えない程の性能ではないですね、余計なコード混ぜてきたりと扱いづらいです。

  • @merlin8
    @merlin8 Месяц назад +1

    APIで使えるようになるのを待ってます

  • @salmon54561
    @salmon54561 Месяц назад +1

    考えてる過程を文字にすると精度が上がるっていうのは不思議ですよね🤔
    めっちゃコスパは悪そうなのに、OpenAIがCoTの手法を取り入れたってことは、本当の意味での答えポン出しがどうしても無理で、せめて見かけ上はポン出しに対応したように見せてるんですかね🤔
    現在主流のデータセットとCoTは切っても切れない関係にあるのかもですね。

    • @aivtuber2866
      @aivtuber2866  Месяц назад +1

      確かに考えさせた方が良さそうって何となくわかりますが
      思考過程の入力によって
      言語モデルの中で何が起きているのかは不思議ですよね🤔

    • @salmon54561
      @salmon54561 Месяц назад

      @marie-dq9ly
      なるほどです。解釈違いを防ぐために復唱するのは、人間でも大事ですね。方向性を絞るという過程も、複雑な問題を解くには必要ですもんね。
      AIの不思議を超えて、言語の不思議って感じがします。リプありがとうございますm(__)m

  • @うと_ゲームすき
    @うと_ゲームすき Месяц назад +2

    LLMの進化とかでは無くて、処理のchainが進化したって感じなのか?

    • @aivtuber2866
      @aivtuber2866  Месяц назад +1

      LLM自体の進化というより、
      CoTプロンプト自動作成の精度が上がった感じかもですね🤔

    • @うと_ゲームすき
      @うと_ゲームすき Месяц назад +2

      @@aivtuber2866 この動画しか見てないんですが、エージェント機能の進化って感じの内容っぽいですね

  • @son-o9w
    @son-o9w Месяц назад +2

    CoTにフォーカスする仕様が興味です。
    「即答」「頭の回転が速い」「みなまで言わずとも動いて結果を出す」こんなことを、世間一般の組織は『優秀』と評価しますが、、実態は、AIの起こすハルシネーション同然です。早合点と抜け漏れとミスそして取り繕い。理屈を軽視する仕事の質は低いかと。それでも、質は問わず速度が欲しい要件も多いので、この例のように数理のテーマについて使いたいです。

  • @宇佐見英晴
    @宇佐見英晴 Месяц назад +1

    小説を書いたりできる?

  • @大久保直太朗
    @大久保直太朗 Месяц назад +2

    API高いし速度も遅い上に特定のタスクでしかアドバンテージがない
    正直4oの音声モード実装放置して出すのがこれかあという感想
    大統領選終わるまでGPT-5出せないのは分かるんだけど優先順位を間違えないで欲しいかな

    • @aivtuber2866
      @aivtuber2866  Месяц назад

      4oの音声モード早く使ってみたいですよね・・・!

  • @Radioman0990
    @Radioman0990 Месяц назад +3

    でも、o1も9.9と9.11の大きさの比較はできないらしい笑

    • @dan-un8zr
      @dan-un8zr Месяц назад +3

      私が見たのでは出来てましたよー

    • @uerllbeww-nc7vz
      @uerllbeww-nc7vz Месяц назад +3

      LLMにとって9に付随する修飾語の数(.9 と.11)=計算量が.11の方が大きい、と判断している可能性も...
      あと、9.11を日付だと捉えてる?と思考の中身を見て感じました

    • @tosan-l3s
      @tosan-l3s Месяц назад +1

      結局そういう間違いを少なくない確率で出力するんなら使い物にならないな。まあ機械が人間のように考えてるわけでないから当然っちゃ当然か

  • @shinzoabe4777
    @shinzoabe4777 Месяц назад +1

    せっかく新しい機能がでても有償プランなのにこんだけしか使えないんじゃあ意味ないよね。製品開発に協力させられてる感が否めない。逆に安い料金プランで回数制限をかけたo1しか使えないプランを用意したほうが説得力があると思う。

  • @宇佐見英晴
    @宇佐見英晴 Месяц назад +1

    英語だけ?

    • @aivtuber2866
      @aivtuber2866  Месяц назад

      日本語でも思考はしてくれるようです!