Это видео недоступно.
Сожалеем об этом.

GPT-4o是如何做到低延迟实时对话的?

Поделиться
HTML-код
  • Опубликовано: 15 май 2024
  • 为您解读GPT-4o采用了什么网络架构,采用了什么技术来实现低延迟实时对话的。

Комментарии • 9

  • @techdiylife
    @techdiylife  3 месяца назад

    AI开发者先AI一步,共学技术交流群,加微信:aixiagudao,或者自己扫码:techdiylife.github.io/blog/blog.html?category1=c05&blogid=0032

  • @nullpointer0x0000
    @nullpointer0x0000 3 месяца назад +1

    streaming输入这块肯定是,但这还不足以支撑。而且最大的问题是,如果在对话中加入了相反的意思,比如“你先唱首歌吧,哦不,你还是讲个故事吧”这就会导致最初的语音合成是错的,因为没有context。而实际上并没有

    • @techdiylife
      @techdiylife  3 месяца назад

      “你先唱首歌吧,哦不,你还是讲个故事吧”,大语言模型可以理解你这句话的意思,会把前面的忽略掉。如果中间停顿足够大,它已经开始唱歌了,也是可以将其终止的。

  • @k46926472
    @k46926472 3 месяца назад

    不用管啥架构只要token产生的速度足够快就行

  • @tryramen
    @tryramen 3 месяца назад

    如何解释4o可以唱歌?感觉生成的不只是文字再转语音,而是一次性转成语音?

    • @techdiylife
      @techdiylife  3 месяца назад

      非常有可能,我没有看到基于LLM的合成的资料,如果有相关的资料欢迎留言反馈。

  • @saibinlin4407
    @saibinlin4407 3 месяца назад

    那么,AI正在输出的时候,当有人打断他的话,它是如何能够进行中止输出快速转为新的任务执行呢?

    • @XD-nl1wl
      @XD-nl1wl 3 месяца назад +1

      這太簡單了
      直接把原本的session drop掉就好

    • @techdiylife
      @techdiylife  3 месяца назад

      LLM生成时每个生成一个token都是一次推理,也就是forward操作,所以是可以在任何一个token生成后停止的。