Gemini 2.0震撼发布遭遇滑铁卢!能否击败Claude3.5?逻辑推理到算法实现的全面测试!gemini-exp-1206+LlamaIndex实现Text to SQL多表联合查询!含完整源码

Поделиться
HTML-код
  • Опубликовано: 12 янв 2025

Комментарии • 33

  • @whats2000_
    @whats2000_ Месяц назад +3

    我在Agent編程任務有感受明顯的工具選擇規劃提升很多,但是仍不如Sonnet,或許有過擬合問題。但是,他免費啊,我求什麼,已經能算免費替代🎉

  • @meelijah5474
    @meelijah5474 Месяц назад

    好想知道第一道题的正确答案 感觉被吊胃口了哈哈 最后自己去claude问的

  • @yesweet
    @yesweet Месяц назад

    多模态的牛逼功能在那个屏幕分享和摄像头视频,实时对话方面也是比chatgpt靠谱不少。

  • @marquezking687
    @marquezking687 Месяц назад +2

    opus 3.5什么时候发布呀?

    • @AIsuperdomain
      @AIsuperdomain  Месяц назад +1

      好像不发布了,这个版本号被官方移除了

  • @Zero-v8s
    @Zero-v8s Месяц назад +5

    贪吃蛇那里有黑色的食物,上面太暗了你没看见

    • @AIsuperdomain
      @AIsuperdomain  Месяц назад

      哈哈 是的 屏幕亮度调的比较暗 所以没注意到

  • @sailize
    @sailize Месяц назад

    果然還是要實測啊,不過免費可以佔個便宜一下

  • @learnfromdata3660
    @learnfromdata3660 Месяц назад

    快是真的快。

  • @myboloo1
    @myboloo1 Месяц назад

    多模态能力,不测一下吗,特别视频分析领域,gemini没有平替

  • @MaxwellHay
    @MaxwellHay Месяц назад

    o1 和 o1 pro 啥时候测

    • @AIsuperdomain
      @AIsuperdomain  Месяц назад +1

      这两个也不如claude3.5

    • @MaxwellHay
      @MaxwellHay Месяц назад

      @ Sonnet确实比4o要强很多。我自己还没有和o1比较。不过不少测评都说o1 和 o1 pro要更强。

    • @setsura7
      @setsura7 Месяц назад

      根据我的实验 coding的话o1pro确实不如sonnet。但是推理要强很多

    • @MaxwellHay
      @MaxwellHay Месяц назад

      @@setsura7 这也是我的感觉。还是挺惊讶sonnet在coding方面依旧是最好的

  • @j23zsxc
    @j23zsxc Месяц назад

    gemini 2.0 api在cursor也能免费调用吗

  • @排骨-o7v
    @排骨-o7v 13 дней назад

    这么来说Sonnet3.5暂时是无敌的

  • @hxlbac
    @hxlbac Месяц назад

    O1的回答与Gemini2.0一样。我追问为什么蓝眼睛的人等红眼睛集体离岛后,能够判断出剩下的都是蓝眼睛了,他们为什么不走?O1的回答一堆,好像很肯定。以下是O1的回答:
    从逻辑上看,第N天夜晚所有红眼睛者一起离开后,剩下的人可以得出这样一个事实:岛上没有红眼睛者了,只有蓝眼睛者。就“事实”层面而言,这一点没有问题。
    然而,“事实”与“公共知识”或“可引发行动的逻辑链条”之间存在微妙的区别。在这个经典谜题的设定中,触发行动的关键是一个公共且可递归推理的起点信息。
    为什么红眼睛者能离开?
    他们的离开是由旅行者的一句“岛上有红眼睛的人”这条公共信息触发的。这条信息在逻辑上为他们提供了一个0日假设(假设如果只有1个红眼睛人,那第一天就走;如果有2个红眼睛人,那么第二天就会走;……以此推演到N个红眼睛人第N天走),从而引发一连串精确的倒数推理。他们的最终离开是一个完全依赖于这条初始公共信息的逻辑结果。
    蓝眼睛者的情况有何不同?
    1. 缺乏同类的公共信息起点:
    虽然当N个红眼睛者在第N天夜间离开后,剩下的人“事实”上已经全是蓝眼睛,但这个结论并不是通过一个类似“岛上有蓝眼睛的人”这种新且可递归使用的公共信息触发的。
    对蓝眼睛者而言,他们从一开始就知道岛上有蓝眼睛的人(因为他们看得到),但这并没有以“公共知识引发逻辑递归链条”的形式呈现。从逻辑谜题的角度来看,这不是一个新信息,也不是通过“等待某日不离开则说明……”这种可层层递推的模式得出的结论。
    2. 无待验证的期限与递归结构:
    红眼睛人的推断基于特定的“迟滞期”(X天没人走就说明红眼睛人数至少X+1个),从而在第N天形成闭环证明。而蓝眼睛人从未经历这种随日期变化不断缩小不确定性的过程。他们没有一个从0日开始由公共知识触发的链条。
    3. 无离开动机的递归验证条件:
    就算蓝眼睛人在红眼睛人离开后“事实性”意识到自己很可能是蓝眼睛,但他们缺乏一个像红眼睛推断过程中那样的严格递归验证过程来让这一点上升为“必须在当天晚上离开”的自我确定。换言之,他们始终缺少那个决定性的、可用来严格证明自身眼睛颜色的公共逻辑起点。
    总结:
    当第N天夜间所有红眼睛人离开后,岛上剩下的人从外部旁观者视角来看,当然都是蓝眼睛。然而,对蓝眼睛者而言,没有被触发用于自身判断的递归逻辑链条。他们并没有经历一个类似红眼睛者那样基于公共信息的层层推理倒数过程,故而他们没有达到“在本夜必须离开”的逻辑必然性。
    结果就是:即使他们“知道”现实中全是蓝眼睛人,但在这个逻辑结构中,他们没有在特定日子被迫得出一个“我确定自己是蓝眼睛”的严格逻辑结论,从而没有行动(离岛)的触发。

  • @KJGTX
    @KJGTX Месяц назад

    谷歌还是不行

  • @WoodyDataAI
    @WoodyDataAI Месяц назад +2

    Gemini 很久不用了, 差的太多了. 坑爹,

  • @matrix_tomato
    @matrix_tomato Месяц назад

    😂😂😂还是得3.5啊

  • @反贼必须死
    @反贼必须死 Месяц назад

    gemini的编程能力一直很烂,特别烂