O Novo Modelo de IA da OpenAI: Revolução ou Ilusão?

Поделиться
HTML-код
  • Опубликовано: 5 окт 2024
  • НаукаНаука

Комментарии • 12

  • @fvcapra
    @fvcapra 15 дней назад +2

    Belesma?
    Primeiramente parabéns pelo ótimo trabalho!
    Bem, fiquei com a sensação que o O1 é mais do mesmo!
    Testei alguns prompts relacionados com matemática e engenharia em ambos GPTs e não vi diferença. Cometeu os mesmo erros.
    Curioso, fiz um prompt pedindo ao O1 para criar uma tabela de comparação com o GPT4 e Omini, considerando, entre outros critérios, raciocínio lógico, precisão/acuracidade e consistência/repetibilidade das respostas. Pedi que ele atribuísse pesos e justificasse o porquê da escolha. Ele "se considerou" como inferior ao GPT4 e Omini para soluções de média e alta complexidade que envolvam engenharia mecânica.

  • @rozaliamarcelino4500
    @rozaliamarcelino4500 4 дня назад +1

    😊

  • @FranciscadasChagasRodrig-jz6pg
    @FranciscadasChagasRodrig-jz6pg 12 дней назад +1

    Em toda s***** da minha vida todas as áreas da minha vida❤😂😢😢😢

  • @a31-hq1jk
    @a31-hq1jk 14 дней назад +2

    Nao entendi, você viu os benchmarks, reviews e estudos ou tá só reproduzindo opiniões sobre o o1?

    • @fvcapra
      @fvcapra 14 дней назад +2

      Eu fiz diversos testes e comparei seus resultados com GPT 4 tradicional e o Omini. Não vi nada demais, nenhuma nova revolução. Elabora todas as equações de forma perfeita, te explica todo o "raciocino"... Fabuloso, porém isso os demais também fazem. Mas na hora de tirar nota 10, continua errando os cálculos matemáticos, muitos deles básicos e fundamentais. Mas ainda assim, na minha opinião ainda é a melhor das IA generativas para multitarefas.

    • @a31-hq1jk
      @a31-hq1jk 14 дней назад

      @@fvcapra pode compartilhar os testes?

    • @a31-hq1jk
      @a31-hq1jk 13 дней назад

      Na minha leiga interpretação esse modelo nem sequer foi escalado e é o que tem o maior potencial de ganho de performance com escala, as pessoas são muita rápidas no julgamento dos produtos e nem sequer testam direito.
      No estado atual esse modelo performa até pior que outros estate of the art em tarefas simples, mas em matemática e física há ganho de performance. Se me recordo bem os ganhos são principalmente na hora de quebrar o problema pra achar a solução e não nos cálculos em si. Na parte de llm ela comete os mesmos erros que as outras já que ela é também um llm.
      Porém a performance ficava acima de um ser humano médio e abaixo de um medalhista de ouro no benchmark. Quando era possível fazer várias submissões entretando, ela ultrapassava os medalhistas de ouro, o que se não me engano é uma novidade.

    • @fvcapra
      @fvcapra 13 дней назад +1

      Seria bom que você realizasse seus próprios testes, comparasse com suas expectativas e tirasse suas próprias conclusões. Talvez você se surpreenda com os resultados.
      Como meu foco é engenharia, é possível que minha perspectiva seja diferente ou que minhas expectativas estivessem um pouco altas.
      Mas vou te dar um exemplo: errou conta de divisão simples, de dois dígitos.

    • @a31-hq1jk
      @a31-hq1jk 13 дней назад

      @@fvcapra eu já uso llms e sei algumas diferenças, mas não tenho acesso ao o1 apesar de querer