Размер видео: 1280 X 720853 X 480640 X 360
Показать панель управления
Автовоспроизведение
Автоповтор
早速使ってみました。問題:「ある地方では、1年間に平均3回台風が通過する。この1年間に台風が通過する回数をXとし、これが平均u=3のポアソン分布P(3)に従うものとする。この時、この地方に5回以上台風が通過する確率を求めよ。」(大学レベルの「ポアソン分布」の問題です)「約18.47%」と正解しました。びっくりです!
統計学にも強そうですね!
大学レベル?定型的なポアソン分布の問題でこんなのできて当たり前だと思うが。
@@whilewecan AIにできることがすごい、って言ってるのに。読解力ないのバレるよ。
@@whilewecan言語モデルってそもそもそんな計算出来るように作られてませんからね入力文や自分の返答文からそれっぽい回答文を言語的・確率的に生成するだけなんですよ中にポアソン分布の計算プログラムが存在するわけではないのにこの精度で正解できるのはすごいことです
この問題は4でも4oでも解けましたね。数式に結びつける部分に曖昧さがないので結構楽なのでは。「ある地方では、1年間に平均3回台風が通過する。この時この地方に5回以上、台風が通過する確率を求めよ。」 でも、4、4o、o1いずれも解けてますね。
いつもありがとうございます!とても分かりやすかったです。o1-preview試してみます。
そう言っていただけて良かったです!o1-preview是非試してみてください😊
使ってみたけど特定のタスクじゃなかったら4oとか3.5 SonnetとかGemini 1.5 Proでいい感じだったOpenAI自身も言ってるけど特化モデルであって4oの上位互換ではないので触る人はそこ注意GPT-5とか3.5 Opus早く出ないかなあ
結構使い分けするの難しいですよね!個人的に3.5 Opus楽しみです・・・!
o系列のモデルがAGIのプロトタイプみたいな形で発展してくれるとアツい。頑張れopenAI。
ノノグラムは日本だと「お絵かきロジック」などと言う名称で親しまれていますこれを解くと縦5行目までで大きな円を書き、最後の行で右下に点を打つので、「q」の形になります
エグゥ……
ありがとうございます!笑「お絵描きロジック」知らなかったです・・・!
なんか、普通のエージェントテクニックを従来のに導入したのと変わらない気がするんですが。値段は上がってないみたいだけど、その分使用回数制限されてるから、どうなんかね。O1は、今までの4oでCOT+アルファと言われても驚かないけど。商用モデルだしてるところに期待されてるのは素の言語モデル自体の性能向上だと思ってるので、この方向性は、どうなんだろう。
細かいルールに基づく専門的な判断はこれまでgpt-4oとかだと論理的正しさの保証ができなかったんですけどこれの価格が安くなってAPIで使えるようになれば結構ゲームチェンジャーな気がしますねただ相変わらずミスはするし変な間違いを犯すみたいなので人間のチェックは必要でしょうけど
なるほどありがとうございます
コメントありがとうございます!少しでも役に立ったようでよかったです!
最初はすごいなと思ったけど、よくよく考えれば、これってGPT4oに丁寧なプロンプト入れるのと変わらなくない? 難しい問題とかも解き方を丁寧に教えてあげればできるし。新しいタスクとかなら使えるかもだけど、既知のタスクならGPT4oの方が良さそう。
おっしゃるようにGPT4oでも同じような事ができますよね!OpenAIの公式の例を見ると、出力している思考が異常に長いのであの長さを一発で出すのは、o1みたいにモデル自体の設計を変えないと難しいかもですが・・・!
論理的思考ができるようになったから数学が解けるようになったのか数学を解けるように訓練したら論理的思考ができるようになったのか
Unity android build (gradle)の不具合をo1 さんと一緒に頑張っています 4oと比べると明らかに精度は上がっています。より論理的になっています4oは即答を求められて陳腐な回答をした感はあったけどo1はステップバイステップをより高度に実行したイメージだと思いましたちなみに半日Unity android buildの不具合を頑張っていますが解決していませんこれはo1が無能で無くAndroid gradle が複雑すぎるにでないかなと思っていますw
ソフトウェアエンジニアよりかはシステムエンジニアよりの作業ですね。私もExpoを通してGradle使ってますが、あれはわけが分かりません。
パズルはピクロスですね行と列の数字が、×となる個数で、条件に基づく箇所を×として表せばまさに、Qという文字が描かれます
ありがとうございます😊ピクロス初めて聞きました・・・!
残念ながら複雑な開発は出来ないみたいで、コードやメッセージの間で矛盾する事象をいくつも確認しました(4oと同じレベル)。それどころか、自分が処理できない論理は「利用規約違反」のフラグをつけて、回答を停止するという暴挙にあってます😭
まだプレビュー版だからね
@7timesInversed10to11 利用規約違反フラグ付けられるのは暴挙っすね・・・
あー、しょうもないことに o1-mini 使ってしまった〜🤯
ありがとうございます!🙇♂️そう言って貰えてありがたいです!
なんとなくこれだと4oでCoTやった方が軌道修正もしやすくていい気がしてしまうけどどうなのかな
確かにo1思考が異常に長いので全然違う方向に思考していったらめっちゃ無駄になりそうですね・・・🤔笑
問題を分解してスケッチを描いていくように考えている。データサイエンティスト要らなくなるかもしれない
こういうときのために前払いしてTier4にはしてたのですが4に降りてくるのが遅そうなら追加で課金しようかと思っています4oのときはすぐだったのでとりあえず様子見です
Tier4でしたらかなりAPI使われているんですね・・・!😲
@@aivtuber2866 消費しなくてもクレジットだけ先に買っておけばTierは上がりますよ!
数学ができるということなのでやっと使い物になる😂
使ってみましたが月30回しか使えない程の性能ではないですね、余計なコード混ぜてきたりと扱いづらいです。
APIで使えるようになるのを待ってます
考えてる過程を文字にすると精度が上がるっていうのは不思議ですよね🤔めっちゃコスパは悪そうなのに、OpenAIがCoTの手法を取り入れたってことは、本当の意味での答えポン出しがどうしても無理で、せめて見かけ上はポン出しに対応したように見せてるんですかね🤔現在主流のデータセットとCoTは切っても切れない関係にあるのかもですね。
確かに考えさせた方が良さそうって何となくわかりますが思考過程の入力によって言語モデルの中で何が起きているのかは不思議ですよね🤔
@marie-dq9ly なるほどです。解釈違いを防ぐために復唱するのは、人間でも大事ですね。方向性を絞るという過程も、複雑な問題を解くには必要ですもんね。AIの不思議を超えて、言語の不思議って感じがします。リプありがとうございますm(__)m
LLMの進化とかでは無くて、処理のchainが進化したって感じなのか?
LLM自体の進化というより、CoTプロンプト自動作成の精度が上がった感じかもですね🤔
@@aivtuber2866 この動画しか見てないんですが、エージェント機能の進化って感じの内容っぽいですね
CoTにフォーカスする仕様が興味です。「即答」「頭の回転が速い」「みなまで言わずとも動いて結果を出す」こんなことを、世間一般の組織は『優秀』と評価しますが、、実態は、AIの起こすハルシネーション同然です。早合点と抜け漏れとミスそして取り繕い。理屈を軽視する仕事の質は低いかと。それでも、質は問わず速度が欲しい要件も多いので、この例のように数理のテーマについて使いたいです。
小説を書いたりできる?
API高いし速度も遅い上に特定のタスクでしかアドバンテージがない正直4oの音声モード実装放置して出すのがこれかあという感想大統領選終わるまでGPT-5出せないのは分かるんだけど優先順位を間違えないで欲しいかな
4oの音声モード早く使ってみたいですよね・・・!
でも、o1も9.9と9.11の大きさの比較はできないらしい笑
私が見たのでは出来てましたよー
LLMにとって9に付随する修飾語の数(.9 と.11)=計算量が.11の方が大きい、と判断している可能性も...あと、9.11を日付だと捉えてる?と思考の中身を見て感じました
結局そういう間違いを少なくない確率で出力するんなら使い物にならないな。まあ機械が人間のように考えてるわけでないから当然っちゃ当然か
せっかく新しい機能がでても有償プランなのにこんだけしか使えないんじゃあ意味ないよね。製品開発に協力させられてる感が否めない。逆に安い料金プランで回数制限をかけたo1しか使えないプランを用意したほうが説得力があると思う。
英語だけ?
日本語でも思考はしてくれるようです!
早速使ってみました。問題:「ある地方では、1年間に平均3回台風が通過する。この1年間に台風が通過する回数をXとし、これが平均u=3のポアソン分布P(3)に従うものとする。この時、この地方に5回以上台風が通過する確率を求めよ。」(大学レベルの「ポアソン分布」の問題です)「約18.47%」と正解しました。びっくりです!
統計学にも強そうですね!
大学レベル?定型的なポアソン分布の問題でこんなのできて当たり前だと思うが。
@@whilewecan AIにできることがすごい、って言ってるのに。読解力ないのバレるよ。
@@whilewecan言語モデルってそもそもそんな計算出来るように作られてませんからね
入力文や自分の返答文からそれっぽい回答文を言語的・確率的に生成するだけなんですよ
中にポアソン分布の計算プログラムが存在するわけではないのにこの精度で正解できるのはすごいことです
この問題は4でも4oでも解けましたね。数式に結びつける部分に曖昧さがないので結構楽なのでは。
「ある地方では、1年間に平均3回台風が通過する。この時この地方に5回以上、台風が通過する確率を求めよ。」 でも、4、4o、o1いずれも解けてますね。
いつもありがとうございます!とても分かりやすかったです。o1-preview試してみます。
そう言っていただけて良かったです!
o1-preview是非試してみてください😊
使ってみたけど特定のタスクじゃなかったら4oとか3.5 SonnetとかGemini 1.5 Proでいい感じだった
OpenAI自身も言ってるけど特化モデルであって4oの上位互換ではないので触る人はそこ注意
GPT-5とか3.5 Opus早く出ないかなあ
結構使い分けするの難しいですよね!
個人的に3.5 Opus楽しみです・・・!
o系列のモデルがAGIのプロトタイプみたいな形で発展してくれるとアツい。頑張れopenAI。
ノノグラムは日本だと「お絵かきロジック」などと言う名称で親しまれています
これを解くと縦5行目までで大きな円を書き、最後の行で右下に点を打つので、「q」の形になります
エグゥ……
ありがとうございます!笑
「お絵描きロジック」知らなかったです・・・!
なんか、普通のエージェントテクニックを従来のに導入したのと変わらない気がするんですが。値段は上がってないみたいだけど、その分使用回数制限されてるから、どうなんかね。O1は、今までの4oでCOT+アルファと言われても驚かないけど。商用モデルだしてるところに期待されてるのは素の言語モデル自体の性能向上だと思ってるので、この方向性は、どうなんだろう。
細かいルールに基づく専門的な判断はこれまでgpt-4oとかだと論理的正しさの保証ができなかったんですけど
これの価格が安くなってAPIで使えるようになれば結構ゲームチェンジャーな気がしますね
ただ相変わらずミスはするし変な間違いを犯すみたいなので人間のチェックは必要でしょうけど
なるほど
ありがとうございます
コメントありがとうございます!
少しでも役に立ったようでよかったです!
最初はすごいなと思ったけど、よくよく考えれば、これってGPT4oに丁寧なプロンプト入れるのと変わらなくない? 難しい問題とかも解き方を丁寧に教えてあげればできるし。新しいタスクとかなら使えるかもだけど、既知のタスクならGPT4oの方が良さそう。
おっしゃるようにGPT4oでも同じような事ができますよね!
OpenAIの公式の例を見ると、出力している思考が異常に長いので
あの長さを一発で出すのは、o1みたいにモデル自体の設計を変えないと難しいかもですが・・・!
論理的思考ができるようになったから数学が解けるようになったのか
数学を解けるように訓練したら論理的思考ができるようになったのか
Unity android build (gradle)の不具合をo1 さんと一緒に頑張っています 4oと比べると明らかに精度は上がっています。より論理的になっています
4oは即答を求められて陳腐な回答をした感はあったけど
o1はステップバイステップをより高度に実行したイメージだと思いました
ちなみに半日Unity android buildの不具合を頑張っていますが解決していません
これはo1が無能で無くAndroid gradle が複雑すぎるにでないかなと思っていますw
ソフトウェアエンジニアよりかはシステムエンジニアよりの作業ですね。私もExpoを通してGradle使ってますが、あれはわけが分かりません。
パズルはピクロスですね
行と列の数字が、×となる個数で、条件に基づく箇所を×として表せば
まさに、Qという文字が描かれます
ありがとうございます😊
ピクロス初めて聞きました・・・!
残念ながら複雑な開発は出来ないみたいで、コードやメッセージの間で矛盾する事象をいくつも確認しました(4oと同じレベル)。それどころか、自分が処理できない論理は「利用規約違反」のフラグをつけて、回答を停止するという暴挙にあってます😭
まだプレビュー版だからね
@7timesInversed10to11 利用規約違反フラグ付けられるのは暴挙っすね・・・
あー、しょうもないことに o1-mini 使ってしまった〜🤯
ありがとうございます!🙇♂️
そう言って貰えてありがたいです!
なんとなくこれだと4oでCoTやった方が軌道修正もしやすくていい気がしてしまうけどどうなのかな
確かにo1思考が異常に長いので
全然違う方向に思考していったら
めっちゃ無駄になりそうですね・・・🤔笑
問題を分解してスケッチを描いていくように考えている。データサイエンティスト要らなくなるかもしれない
こういうときのために前払いしてTier4にはしてたのですが
4に降りてくるのが遅そうなら追加で課金しようかと思っています
4oのときはすぐだったのでとりあえず様子見です
Tier4でしたらかなりAPI使われているんですね・・・!😲
@@aivtuber2866
消費しなくてもクレジットだけ先に買っておけばTierは上がりますよ!
数学ができるということなのでやっと使い物になる😂
使ってみましたが月30回しか使えない程の性能ではないですね、余計なコード混ぜてきたりと扱いづらいです。
APIで使えるようになるのを待ってます
考えてる過程を文字にすると精度が上がるっていうのは不思議ですよね🤔
めっちゃコスパは悪そうなのに、OpenAIがCoTの手法を取り入れたってことは、本当の意味での答えポン出しがどうしても無理で、せめて見かけ上はポン出しに対応したように見せてるんですかね🤔
現在主流のデータセットとCoTは切っても切れない関係にあるのかもですね。
確かに考えさせた方が良さそうって何となくわかりますが
思考過程の入力によって
言語モデルの中で何が起きているのかは不思議ですよね🤔
@marie-dq9ly
なるほどです。解釈違いを防ぐために復唱するのは、人間でも大事ですね。方向性を絞るという過程も、複雑な問題を解くには必要ですもんね。
AIの不思議を超えて、言語の不思議って感じがします。リプありがとうございますm(__)m
LLMの進化とかでは無くて、処理のchainが進化したって感じなのか?
LLM自体の進化というより、
CoTプロンプト自動作成の精度が上がった感じかもですね🤔
@@aivtuber2866 この動画しか見てないんですが、エージェント機能の進化って感じの内容っぽいですね
CoTにフォーカスする仕様が興味です。
「即答」「頭の回転が速い」「みなまで言わずとも動いて結果を出す」こんなことを、世間一般の組織は『優秀』と評価しますが、、実態は、AIの起こすハルシネーション同然です。早合点と抜け漏れとミスそして取り繕い。理屈を軽視する仕事の質は低いかと。それでも、質は問わず速度が欲しい要件も多いので、この例のように数理のテーマについて使いたいです。
小説を書いたりできる?
API高いし速度も遅い上に特定のタスクでしかアドバンテージがない
正直4oの音声モード実装放置して出すのがこれかあという感想
大統領選終わるまでGPT-5出せないのは分かるんだけど優先順位を間違えないで欲しいかな
4oの音声モード早く使ってみたいですよね・・・!
でも、o1も9.9と9.11の大きさの比較はできないらしい笑
私が見たのでは出来てましたよー
LLMにとって9に付随する修飾語の数(.9 と.11)=計算量が.11の方が大きい、と判断している可能性も...
あと、9.11を日付だと捉えてる?と思考の中身を見て感じました
結局そういう間違いを少なくない確率で出力するんなら使い物にならないな。まあ機械が人間のように考えてるわけでないから当然っちゃ当然か
せっかく新しい機能がでても有償プランなのにこんだけしか使えないんじゃあ意味ないよね。製品開発に協力させられてる感が否めない。逆に安い料金プランで回数制限をかけたo1しか使えないプランを用意したほうが説得力があると思う。
英語だけ?
日本語でも思考はしてくれるようです!