阿里最新开源大模型QwQ-32B-Preview真实水平如何?能否超越Claude3.5和OpenAI?深度解析大模型的局限性!当我稍微修改测试题目,阿里QWQ-32B就会有出错的可能

Поделиться
HTML-код
  • Опубликовано: 3 дек 2024

Комментарии • 47

  • @zdhpeter
    @zdhpeter 4 дня назад

    太棒啦 没想到这么快就测试啦

  • @howiewu
    @howiewu 3 дня назад +1

    我使用qwq让他增加思考:提问如下:仔细思考:'Honorificabilitudinitatibus'中有几个'i',答案是7没有出错,提示词增加仔细思考我认为对于qwq这类推理模型是很有效的

    • @wangannan7493
      @wangannan7493 3 дня назад

      下列问题加仔细思考有用吗:泰山,黄山,赵本山,一共几座山

    • @AIsuperdomain
      @AIsuperdomain  3 дня назад

      👍👍👍

    • @howiewu
      @howiewu 3 дня назад

      @@wangannan7493 我qwq得到了正确回复:这个问题可能是在玩文字游戏,试图通过“赵本山”这个姓名中的“山”字来制造混淆。但事实上,赵本山本人并不是一座山,所以不应该计入山的数量。正确答案是两座山。
      但是在我看来这种问题对LLM来说特别是推理模型没有价值,推理是根据已知信息进行逻辑推断,对于推理模型应该告诉他足够的信息然后考验结果,直接提问这种问题与其说在考验模型不如说在考验训练数据是否包含特定信息。比如这个问题的正确提问应该是:
      已知:中国有五个著名的山脉:泰山、华山、恒山、衡山、嵩山,赵本山是中国著名喜剧演员
      请问:泰山,黄山,赵本山,一共有几座山

  • @allezvenga7617
    @allezvenga7617 4 дня назад +1

    謝謝分享

  • @askm9147
    @askm9147 4 дня назад

    請問ragflow跟flowise哪一個對rag檢索效果比較好

  • @wangannan7493
    @wangannan7493 3 дня назад

    >>> 泰山,黄山,赵本山,一共几座山
    答案是:**三座山**
    因为三个名字(泰山、黄山和赵本山)都代表不同的山名:
    * 泰山:一个位于中国山东省的著名山脉
    * 黄山:一个位于中国安徽省的著名景点,世界文化遗产
    * 赵本山:不仅是一个漫画家名字,还代表黄山的一座小山

  • @dujun2023
    @dujun2023 4 дня назад

    Ai 时代 学习成本剧高,并呈现加速趋势,大量的人都分不清自己是用户还是造轮子的,所以,避坑降成本的赛道特别有价值。加油!

  • @jameszhang3877
    @jameszhang3877 4 дня назад +1

    没错,我也测试了,还是很失望。

  • @ostin0127
    @ostin0127 4 дня назад

    哎!測起來也是一樣結論,搞AI的就該實事求是,而不要搞商業那種宣傳術語才對

    • @AIsuperdomain
      @AIsuperdomain  4 дня назад +1

      对,阿里这几次发的模型很让人失望

  • @figmadraw2056
    @figmadraw2056 4 дня назад

    能不能评测下 deepseek?

    • @AIsuperdomain
      @AIsuperdomain  4 дня назад +4

      好的 等我安排

    • @MESevenJourney
      @MESevenJourney 4 дня назад

      ​@@AIsuperdomain 期望博主能把国内几个模型都做一个横向对比。看下模型的真实水平,以及与claude、openAPI的差距

    • @AIsuperdomain
      @AIsuperdomain  4 дня назад +1

      好的 没问题

    • @fulantoChan
      @fulantoChan 4 дня назад

      @@AIsuperdomain 期待deepseek与claude sonnet 3.5的对比,毕竟deepseek便宜太多

  • @ericxu9943
    @ericxu9943 4 дня назад

    32b怎么可能超越几十亿美元的claude3.5

  • @FDY1045
    @FDY1045 4 дня назад

    谢谢帮我们大家趟过这个坑,看来QwQ还是很有限。

    • @AIsuperdomain
      @AIsuperdomain  4 дня назад

      谢谢支持🤝🤝

    • @xldistance
      @xldistance 3 дня назад

      你可以试试marco-o1,很强的模型

  • @c2h2c2h210
    @c2h2c2h210 4 дня назад

    qwq 太差了,还是nemotron 比较好, O1-mini > claude > gpt4o > menotron

  • @jiangluo9310
    @jiangluo9310 4 дня назад

    这个非常明显了,就是你要购买他们才会在里面添加代码,否则谁可以都拿这个开源的做为他们的 SONET3.5去写代码了

    • @AIsuperdomain
      @AIsuperdomain  4 дня назад +2

      开源模型在参数上就无法和闭源模型比,无论是否购买开源模型的商业服务,都达不到闭源模型的效果

  • @geliangzhu9146
    @geliangzhu9146 4 дня назад

    比闭源的顶级模型还是有差距,跟开源的模型比,算是一流水准了。

    • @AIsuperdomain
      @AIsuperdomain  4 дня назад +1

      开源里mistral远比这个强大,阿里的qwq已经备受吐槽了

    • @locl
      @locl 17 часов назад

      别做阿Q谢谢

  • @DayDayUp2022
    @DayDayUp2022 4 дня назад

    超哥,本地什么配置?

    • @AIsuperdomain
      @AIsuperdomain  4 дня назад

      本地用4bit量化版的话,16G VRAM就可以

    • @DayDayUp2022
      @DayDayUp2022 4 дня назад

      @ 我只有…8GB

    • @AIsuperdomain
      @AIsuperdomain  4 дня назад

      用ollama的话应该也可以,只是推理速度可能非常慢

    • @DayDayUp2022
      @DayDayUp2022 4 дня назад

      @@AIsuperdomain 我最近一直在玩儿大模型和rag开发。最近很心动mac mini m4 pro,超哥有什么建议么

    • @AIsuperdomain
      @AIsuperdomain  4 дня назад

      如果不用于微调大模型,那么运行本地LLM和RAG系统,效果是很不错的

  • @matrix_tomato
    @matrix_tomato 4 дня назад

    哎呀呀 这差的也太多了吧 可惜可惜啊

  • @sailize
    @sailize 4 дня назад

    實測還是看哥,最近太多這種抄答案的了😂