【人工智能】大语言模型需要更好的视觉基础来理解含义 | 谢赛宁 | DiT作者 | 多模态语言模型的视觉缺陷 | 基于视觉搜索引导的多模态大模型 | GPT-4V | CLIP | SEAL

Поделиться
HTML-код
  • Опубликовано: 24 янв 2025
  • 6 月 15 日,在智源大会的「多模态大模型」论坛上,纽约大学助理教授谢赛宁,从哲学的角度出发,分享了针对大语言时代的视觉表征研究。他和他的团队为我们带来了两篇最新的研究论文,分别从探索多模态大型语言模型的视觉缺陷、基于视觉搜索引导的多模态大模型,以及真实世界中的虚拟智能落地等方面,介绍了团队的最新工作。今天大飞想通过谢赛宁的分享,让我们一睹计算机视觉研究领域的最前沿研究成果。
    原视频地址:event.baai.ac.... ,01:47:26开始
    #人工智能 #computervision #multimodal #sainingxie

Комментарии • 24

  • @junfanzhu
    @junfanzhu 21 день назад

    5:52 视网膜不到1%的凹结构能激活大脑50%的视觉皮质,因此人类可以关注重点、忽略次要,机器较难定位目标,泛化能力差。8:11 SEAL框架(VQA大语言模型+视觉工作记忆VWM+视觉搜索模块)

  • @corgirun7892
    @corgirun7892 7 месяцев назад +4

    谢赛宁还真是非常善于搞个大新闻

  • @randomchineseguy6462
    @randomchineseguy6462 7 месяцев назад +2

    这就是之前Ilya分享的那篇柏拉图表征的结论吧

  • @codingapi8073
    @codingapi8073 7 месяцев назад +5

    大飞
    你好,我是你的粉丝关注你的RUclips很长时间了,我也是一名程序员对AI技术也非常的关注。但是我非科班出身对很多基础的理论掌握的不好。不过我对AI始终有一个自己的理解,想与你讨论一下。
    今天大模型通常都是通过网络上的数据信息训练而成的,无论模型的参数量大小其本质上都是一个固定死的算法模型。但是从我做为一个人类的角度来看,我始终认为AI的技术方向存在一些偏差。
    我认为一个真正的智能体,他应该是基于自己的知识来回答问题,而不是基于参数来回答问题。目前的大模型在发展上存在一个tokens的上限限制问题,导致AI很难把足够长的信息吸收好,然后回答问题。但是我不认为需要研究设计可以容纳更长的tokens的神经网络来解决这个问题是最终的方向。以人类来举例,我认为每一个人类个体,都存在三个必要的信息,1是自己的知识图谱,2是自己的最大RAM,3是当前任务的计划内容。
    自己的知识图谱,就是个人的知识认知,这些信息通常都是一些架构信息,并不是对所有知识的囊扩,就是关键知识节点于边的信息。
    自己的RAM,就是同时可以处理信息的大小,我相信这个因为每个人的差异会有所不同,但并不是特别关键的影响因素。
    当前任务的内容,当前任务可以是多个任务,但通常人类在处理任务的时候需要专注于某一个任务,这里就类似于CPU的任务切换的概念,我们可以将当前的任务挂起,然后再执行任务池中的下一个任务。
    在人类的这个智能体下,我们的反响传播其实收敛的地方是知识的结合,就是说当我们把这个信息吸收以后,是会将这个信息存储到了自己的知识图谱中了,可能开始构建的知识图谱会存在错误,但随着后续遇到问题解决问题的过程,也会再不断的纠正自己的知识体系,所以在收敛的过程中,只要能够将信息链接到自己的知识图谱中就算完成收敛。
    另外我认为人类在处理信息的时候使用的方法就是匹配,就是将当前的问题信息抽象(embedding),然后将抽象后的数据于自己的知识图谱像匹配,在匹配的过程中也会将知识图谱进行放大于缩小,总之会匹配到一个最相似的知识上,然后基于这个知识作为基础信息,在结合这个知识上的延伸信息,给出自己的答案或方案。所谓的答案就是结果,但是有些问题需要给出的不是答案而是方案,方案其实就是一个任务,需要进一步的验证任务给出最终的结果。
    所以我认为真正的AI智能体,应该是研究如何构建知识图谱、然后收敛知识图谱、如何基于知识图谱去匹配问题的答案的过程。在这样的模式下当前的RAM是不需要太大的数据承载量的。这是我的一些浅薄的看法,当然我在这个问题上也有一些更深的思考,不知道您如何看待这个事情?

    • @bestpartners
      @bestpartners  7 месяцев назад +2

      感谢关注和支持🙏知识图谱也是一个很大的研究方向,我个人觉得有它的优点,也有它的缺点,并不能解决所有问题,找时间可以做一期视频聊聊

  • @yuli.kamakura
    @yuli.kamakura 7 месяцев назад +2

    1. 4v 4o 这些更多目的是降低成本,节省出来更多的卡做 training。在 us,3.2w张是第一梯队的门槛,而且决定以后。
    2. GPT-4V 多模态模型,展示视觉分析方面的【潜力】,处理不了复杂视觉任务

  • @yanpingchen1484
    @yanpingchen1484 6 месяцев назад +1

    讲的很好

  • @1110-d3r
    @1110-d3r 3 месяца назад +1

    🎉🎉🎉❤❤❤

  • @jiangzhuo3213
    @jiangzhuo3213 7 месяцев назад +3

    一个模型有多模态能力真的很重要吗?如果人类是没有视觉的物种,有可能进化到统治这个星球吗?

    • @sujasper7881
      @sujasper7881 7 месяцев назад +4

      我觉得人类要是没有视觉的话,能不能进化出智能都是未知数

    • @YetEthanOnly
      @YetEthanOnly 7 месяцев назад +2

      一堆海倫凱勒還得先學會語言與識字能力才能展現智能

    • @DUKE3DHARN
      @DUKE3DHARN 7 месяцев назад +2

      Yann Lecun 的一個觀點是如果只用語言,人接受的訊息量很有限。同理可推,只用語言訓練大模型,是給大模型遠低於人所能接受的資訊量。所以要讓大模型盡可能地多接受資訊,多模態是合理的方向

    • @wade04035017
      @wade04035017 6 месяцев назад +1

      Her 电影是openAI团队的红宝书,无论如何要一个个场景实现

    • @louis-dieudonne5941
      @louis-dieudonne5941 3 месяца назад

      @@sujasper7881如果人類沒有視覺的話,還能不能活下去都不知道的意思是吧😂

  • @禅宗zen
    @禅宗zen 7 месяцев назад +2

    snn是王道。

  • @junyanggao4723
    @junyanggao4723 7 месяцев назад +2

    视频用MacBook的摄像头录制的?升级一下吧哈哈哈

    • @bestpartners
      @bestpartners  7 месяцев назад +3

      用的 iphone 后摄,不过 iphone 确实需要换了,等出 16 吧

  • @Toyota3014
    @Toyota3014 7 месяцев назад +2

    如果视角ai应用于战争 前途无量

    • @刘家林
      @刘家林 7 месяцев назад +1

      已经开始应用了。

  • @sujasper7881
    @sujasper7881 7 месяцев назад +2

    抢个沙发

  • @楊冠曾
    @楊冠曾 7 месяцев назад +1

    最甲拍當

  • @randomchineseguy6462
    @randomchineseguy6462 7 месяцев назад +2

    这就是之前Ilya分享的那篇柏拉图表征的结论吧