OpenAI o3 震撼发布!Arc AGI 测试得分超越人类 | OpenAI 12天「第12天」| 回到Axton

Поделиться
HTML-код
  • Опубликовано: 21 дек 2024

Комментарии • 118

  • @axtonliu
    @axtonliu  День назад +2

    掌握 AI 时代的必备技能,加入「AI 精英学院」 👉 axtonliu.ai
    ▶ 「AI 实战派」Prompt Engineering 提示工程超值早鸟价课程 👉 axtonliu.ai/ai
    ▶ 「AI 自动化」教程 ChatGPT + Make + Zapier + 高效Notion模版 👉 axtonliu.ai/autoai

  • @axtonliu
    @axtonliu  День назад +22

    OpenAI 12天收官之作,o3 最强模型发布,可自我评估、博士级水平、Arc AGI 测试得分超越人类!
    如果说人类的使命就是创造 AI,那么现在已经完成50%了。。。

  • @RolexChan
    @RolexChan День назад +2

    At around 17:00 in the video, two tech guys suggested that they want AI to self-improve and evolve 🧬. Sam immediately interrupted them and said: 'Maybe not.' This was because he was concerned about AGI safety, Lmao.

  • @jameszhang3877
    @jameszhang3877 День назад +16

    测试一下o3:“请以尽量简洁的方式证明一下费马大定理”😄😄😄

    • @lienjerry7370
      @lienjerry7370 День назад

      費曼猜想也不錯

    • @隱居練氣修仙中
      @隱居練氣修仙中 День назад

      ​@@lienjerry7370
      然後整個系統因為你的一句話而被搞當機了😅
      欸,不是,說不定會因為你這樣提問而產生意識了🎉🎉🎉🎉🎉🎉🎉🎉🎉🎉

    • @austinsu5838
      @austinsu5838 День назад +6

      這些問題都離我們太遠了,還是問點實際的問題,例如:「女友跟媽媽掉進河裡,先救誰」😂

    • @jameszhang3877
      @jameszhang3877 День назад

      @@austinsu5838 你太狠了,这是想虐死AI的节奏啊

    • @chi_huang
      @chi_huang День назад +2

      紙寫不下
      得證: 費馬大定理

  • @hou.m.9756
    @hou.m.9756 День назад +13

    17:02 Sam Altman 聽到後踩了一下煞車

  • @心能量-c8v
    @心能量-c8v День назад +4

    人類即將解放了,感恩宇宙,感恩上帝。

    • @john1987john
      @john1987john День назад

      如果任何事都能轻易得到的世界正在发生,这是非常可怕的一件事

  • @陳志明-w3c
    @陳志明-w3c День назад +4

    這種使用右腦的LLM(基於統計關聯而非logical rules,甚至只有自然語言才有semantics電腦語言沒有)的設計不要太期待能做到AGI.

    • @Bryan-bo2kg
      @Bryan-bo2kg День назад +2

      符號主義😂

    • @leeloo_yh
      @leeloo_yh 11 часов назад

      但也許能做到騙到所有人類覺得它是

  • @OAAGOD
    @OAAGOD 11 часов назад

    还差得远呢,应该说只是刚刚开始,还得等量子计算机的普及,尤其微型化本地化

  • @hongweiwang781
    @hongweiwang781 День назад +1

    正当我以为openAI被google追上的时候,原来openAI藏着核弹没放呢!现在压力来到google一边了,“thinking”这种最大限度发挥模型能力的把戏,最终还是不能代替基础模型的能力。

  • @chenchen-c7n
    @chenchen-c7n День назад +1

    怎么申请使用o3呢?

  • @waylonwong369
    @waylonwong369 День назад +6

    快说是不是2000美金一个月😅,那个做基准测试的兄弟打两个广告,sam说谢谢,下一个

  • @ice300tw
    @ice300tw День назад +12

    居然是小沈陽一起做ending

  • @liaoleejun
    @liaoleejun День назад +1

    👍请教一下:您用的是什么语音转录文本做的字幕?感觉比RUclips自带的字幕准确很多

  • @vincentjiang4788
    @vincentjiang4788 День назад +3

    目前AI应用最大的问题:你不知道AI这次是在帮你,还是在帮你挖坑。也不知道这次是专家还是砖家。十次可控,一次不可控,饭就夹生了。有可能还是掺了砂子,吃也不是,扔还可惜。

    • @eggchang
      @eggchang День назад

      你形容的不就是你的壞朋友嗎?

    • @31618doremi
      @31618doremi День назад +1

      要說到這份上得話,感覺人也是吧XD

    • @vincentjiang4788
      @vincentjiang4788 День назад

      @@eggchang 唉,差不多吧,当我把AI应用到我的项目才有这样的感叹了,我把项目目标拆解成明确的任务步骤,一步一步往下做的时候,我迷茫了。生产环境没有用一句话就能搞定的,也不可能随机,AI做啥我用啥。很多科普博主都是玩玩,根本不做项目,没要求、没目标、更不会多平台整合。

    • @林士翔-q4b
      @林士翔-q4b День назад +1

      這是事實🤣,假如是產生知識性的文章問題還算可控。
      但真正要開發大的專案,就需要一個超大的context記住所有的常量,否則就無法避免隨機性。
      比如它可能寫出一個兩個互相矛盾的測試,在修正的過程中毀滅一切🤔。
      但那開發速度又是吸毒般的爽快🥹,我認為終究要有一個人類,要有能力掌握整個專案,細心的一步一步的前進。
      當然,如果是超高價格的特規服務也許能做到,但那燒掉的錢說不定比賺得多

    • @brandongold
      @brandongold День назад

      感覺你在講人類😂

  • @_ZANDER
    @_ZANDER День назад +2

    普通人還是用gemini和claude就行了
    o系列模型上限雖然高 但對一般人來說實用性不高
    如果o家拿不出夠強的非推理模型
    用戶多半會一個個跑

  • @axtonliu
    @axtonliu  День назад +4

    勘误: 视频中提到的首席科学家应该是 Jakub Pachocki,不是 ilya 😅

  • @一片叶
    @一片叶 День назад +6

    留给人类文明的时间真的不多了。

  • @Othersarehell
    @Othersarehell 21 час назад +1

  • @myan518
    @myan518 День назад +1

    如果 AI 能够率先解决复杂编程和代码检查的问题,对创业者来说就是极大的福音。其他方面暂时不担心 AI 的影响。目前似乎研究的努力目标都是尽快复制出类似 AI 研究员那样的 AI,参加数学竞赛、写代码之类的,说得刻薄一点,就是目前他们在努力达成的目标都是制造出能把自己卷死的“书呆子 AI”。你看看现实世界就知道了,这种书呆子并不是真实世界里的赢家。

    • @lovetw001
      @lovetw001 День назад

      預先編碼難,因為真實環境要考慮硬體

  • @Sweetdreams-e5c
    @Sweetdreams-e5c День назад +1

    o1都还没来得及用呢

  • @juneadyue-nw3wr
    @juneadyue-nw3wr 11 часов назад

    什么时候模型能够自我学习,创造新科技,人类做的就只是开电源的话,agi就算实现了。

  • @lovetw001
    @lovetw001 День назад +1

    這個猛

  • @zhangyulou
    @zhangyulou День назад +1

    被谷歌和meta还有国内追的受不了,只能不断发新的了

  • @Youngsmiles-go7jv
    @Youngsmiles-go7jv День назад +1

    没有02吗?

    • @waylonwong369
      @waylonwong369 День назад +7

      一看你就没有看视频,张口就来

  • @vast5516
    @vast5516 День назад +3

    我怎么记得早就超过人类平均得分了

    • @O_O-lw4gl
      @O_O-lw4gl День назад +1

      超过是指所有人类在各个项目
      但所谓的平均,是指你有相关领域的知识或者学习之后,做出来的评估数据
      简单来说,我们不可能把一个没有学过数学的人,来和AI比较,而是把有学过的来评估

  • @Jamesbound407
    @Jamesbound407 6 часов назад

    压力来到了发电站这边😂

  • @阿才-f1x
    @阿才-f1x День назад +1

    看的出來研究員確實很有熱誠
    而且高度專業
    但對外
    還是需要像山姆這樣
    才不會容易失言

  • @tiabillyzju
    @tiabillyzju День назад

    所以假如给一套人类还不知道如何解决的数学问题,o3有可能解决么?

    • @waynepeng9945
      @waynepeng9945 8 часов назад

      根據他們的測試 從打0.2%進步到25% 但我很懷疑這樣測驗的準確性 我相信那些做測試的專家都不是受過數學嚴謹性訓練的數學家 對數學家而言沒有什麼叫做50%正確 只有0或1 任何論證過程中產生的一個無法更正的小錯誤都會被視為沒解決問題 不管那個問題在小

  • @nwohocan
    @nwohocan День назад

    3個月後被追上,沒有持續性的資金投入可以撐到獨佔寡頭

  • @fluxway
    @fluxway День назад

    太恐怖了,AGI可能真的在五年內就出現了

  • @fredzhu455
    @fredzhu455 День назад

    从gpt3.5开始就在说超越了人类的平均水平,搞到现在还在超越平均水平。人类的平均水平看来比AI发展的更快

    • @モノクロムセレティクス
      @モノクロムセレティクス День назад

      是的,人类就是嘴硬的太多了,每次都改对比标准,我看o3也不如我,我穿了两条秋裤,o3一条也不会穿😅

  • @juneadyue-nw3wr
    @juneadyue-nw3wr 11 часов назад

    效果不错,但普通人几乎用不上,或则很少用上,单论这个功能和版本我觉得会亏钱

  • @劉一一-k7x
    @劉一一-k7x День назад

    😂工程師2025解僱潮

  • @lovetw001
    @lovetw001 День назад

    我最近在測試GPT o1疑似開始打我臉的語氣了

  • @tensorflow5330
    @tensorflow5330 День назад +2

    o1 要200$/per month, o3要多少2000$, 感觉越来越远离普通人了

    • @ruruyee39
      @ruruyee39 День назад

      從 11:30 的圖來看成本大概3倍吧

    • @huangcc72
      @huangcc72 День назад +1

      強人工智慧到後來應該都是給企業用, 就算每個月一萬美給企業用戶用, 還是划算..

  • @hotsauce3563
    @hotsauce3563 День назад

    现在o1 200美元一个月太贵了,用不起。

    • @axtonliu
      @axtonliu  День назад

      20的也能用,就是有用量限制

  • @gl1981cn
    @gl1981cn День назад

    基础程序员前途堪忧啊

  • @hisshoney3853
    @hisshoney3853 День назад

    聽說運算成本問題還沒解決 ....

  • @Aji-dj8zm
    @Aji-dj8zm День назад

    程序员失业倒计时

  • @millerinoffice
    @millerinoffice День назад

    真多中国人

    • @huangcc72
      @huangcc72 День назад +3

      Mark 是台灣人, 另外一個就不知道了

    • @pinchemeom
      @pinchemeom День назад

      真多台灣人

  • @9263STYV
    @9263STYV День назад +4

    真不知道这个博士水平是怎么定义的,如果只是做题的话,都是题库训练的,不知道处理全新问题的水平怎么样?之前的 O1亲测过,就逻辑推理而言就是个小学水平,甚至都不如。比如你给它一个全新的定义,比数学框架,它就无法按照你的定义的逻辑进行推理了。

    • @johnny1896
      @johnny1896 День назад +4

      很明顯你連影片都沒看

    • @9263STYV
      @9263STYV День назад +4

      ​​​@@johnny1896 我是没看这个影片,但是我看的是原始的发布视频。整个视频都是在说他们的 Benchmark 测试中成绩怎么高。 对于题库里面的东西,在训练后,解答并不奇怪。一个只会重已知题库里面找答案的东西也能叫博士?智能的核心以及本质是逻辑推理,而不是在已知的信息里面做索引。 原始视频里面说逻辑推理有提升,真实的情况大概就是个小学生水平,他们吹的太浮夸。之前的 O1 也是这么吹的,自己亲测就是个小学生的水平,甚至还差一点。这种作为拉投资大吹也正常,不然不会有金主爸爸继续投钱。

    • @jerrytu1784
      @jerrytu1784 День назад +4

      @@9263STYV如果你看完原影片還是這樣認為 你可能要先檢討你的英文理解程度

    • @9263STYV
      @9263STYV День назад

      @@jerrytu1784 这个我就很奇怪了。我们说一个小学生和一个博士,指的不仅仅是他们掌握的知识,更关键的是他们的逻辑推理能力。给一个全新的框架,一个全新的体系,怎么在这个框架和体系下解决问题才是本质。 就这? 信这种无脑吹的人很多很多,我也管不着。朋友,而且在你发表留言前,麻烦你给出观点,自己论据,实验结果也罢,推论也罢,来支持你的结论。而不是动不动就就叫人检讨,神马的,这样很 low

    • @yukeith8689
      @yukeith8689 День назад

      @@jerrytu1784 的確