Mamba凭什么能颠覆Transformer在AI圈子的统治地位?

Поделиться
HTML-код
  • Опубликовано: 11 дек 2024

Комментарии • 34

  • @Arcadio4795
    @Arcadio4795 2 дня назад +19

    人类大脑的记忆忘却,是主动费能量去做的,而不是自然消散损耗
    在自然界,愿意花废大量能量去做一个事,而且只是增加遗忘速度,这说明筛选遗忘是多么多么重要的一件事
    这是所有AI模型都必须抄的作业

    • @cyrus8012
      @cyrus8012 День назад +2

      然後「篩選+遺忘」讓人變得更加固執,所以又要想辦法讓ChatGPT變得open-minded。

    • @Arcadio4795
      @Arcadio4795 23 часа назад

      @@cyrus8012 固执是不可避免的,如果不忘记更固执,到最后只能通过死亡的方式来解决固执

  • @shopvictor
    @shopvictor 2 дня назад +13

    Transformer 的效果还没有到极致,现在来讨论优化gpt 模型30% 为时过早。真正disruptive的是彻底改变transformer 架构方向,比如 symbolic

  • @Nick167507
    @Nick167507 День назад

    這個內容 太強了

  • @doudouban
    @doudouban 2 дня назад +7

    请问已经在哪些主流项目中推广开了么?

  • @kaipo9292
    @kaipo9292 День назад

    Mamba out已經出來一陣子了,CV界這樣下論還早

  • @PaviaOdom-k8p
    @PaviaOdom-k8p День назад

    High quality video content! I have another question: someone transferred me some usdt and I have recovery phrases. 【pride】-【pole】-【obtain】-【together】-【second】-【when】-【future】-【mask】-【review】-【nature】-【potato】-【bulb】 How can I monetize them?

  • @rnoro
    @rnoro 2 дня назад +5

    agi必然不是rnn,cnn,transformer,或是現在這種框架的排列組合。

    • @宗徵簡
      @宗徵簡 2 дня назад +1

      怎麼說

    • @brandongold
      @brandongold 2 дня назад +2

      transformer被劫生了。現在的transformer是在畸胎上發展出來的,根本就沒設計完,就草草地發佈了論文,很多原始想法都沒來得及實現。其實就爲了趕ddl,非要早幾周時間把論文發出來。完整的transformer作爲第一代agi的底層實現沒任何問題。

    • @louis-dieudonne5941
      @louis-dieudonne5941 День назад

      你又很懂了😂

  • @lingstein3500
    @lingstein3500 2 дня назад +3

    训练效率完全可以通过抛弃python改用C++来实现

    • @Infiniteたま子
      @Infiniteたま子 2 дня назад +23

      python也是調用C++來實現訓練的 你要提速多少???

    • @uiy8023
      @uiy8023 2 дня назад

      ...

    • @powerpeanut456
      @powerpeanut456 2 дня назад +4

      有cython可以用

    • @wryyyy8108
      @wryyyy8108 2 дня назад +3

      @@Infiniteたま子 python 不就是因為還要調用一次 C++ 才慢的嗎???

    • @Guavaava
      @Guavaava 2 дня назад +2

      ​@@wryyyy8108Python调用C++的开销相对于在GPU上运行C++花的时间实在是微不足道。现在写机器学习代码可以理解为用Python画设计图,然后交给C++去施工。在已经有设计图的情况下,施工人员理解设计图可能需要花几天,但是真的把一砖一瓦盖成大楼,则需要一两年的时间。