Belesma? Primeiramente parabéns pelo ótimo trabalho! Bem, fiquei com a sensação que o O1 é mais do mesmo! Testei alguns prompts relacionados com matemática e engenharia em ambos GPTs e não vi diferença. Cometeu os mesmo erros. Curioso, fiz um prompt pedindo ao O1 para criar uma tabela de comparação com o GPT4 e Omini, considerando, entre outros critérios, raciocínio lógico, precisão/acuracidade e consistência/repetibilidade das respostas. Pedi que ele atribuísse pesos e justificasse o porquê da escolha. Ele "se considerou" como inferior ao GPT4 e Omini para soluções de média e alta complexidade que envolvam engenharia mecânica.
Eu fiz diversos testes e comparei seus resultados com GPT 4 tradicional e o Omini. Não vi nada demais, nenhuma nova revolução. Elabora todas as equações de forma perfeita, te explica todo o "raciocino"... Fabuloso, porém isso os demais também fazem. Mas na hora de tirar nota 10, continua errando os cálculos matemáticos, muitos deles básicos e fundamentais. Mas ainda assim, na minha opinião ainda é a melhor das IA generativas para multitarefas.
Na minha leiga interpretação esse modelo nem sequer foi escalado e é o que tem o maior potencial de ganho de performance com escala, as pessoas são muita rápidas no julgamento dos produtos e nem sequer testam direito. No estado atual esse modelo performa até pior que outros estate of the art em tarefas simples, mas em matemática e física há ganho de performance. Se me recordo bem os ganhos são principalmente na hora de quebrar o problema pra achar a solução e não nos cálculos em si. Na parte de llm ela comete os mesmos erros que as outras já que ela é também um llm. Porém a performance ficava acima de um ser humano médio e abaixo de um medalhista de ouro no benchmark. Quando era possível fazer várias submissões entretando, ela ultrapassava os medalhistas de ouro, o que se não me engano é uma novidade.
Seria bom que você realizasse seus próprios testes, comparasse com suas expectativas e tirasse suas próprias conclusões. Talvez você se surpreenda com os resultados. Como meu foco é engenharia, é possível que minha perspectiva seja diferente ou que minhas expectativas estivessem um pouco altas. Mas vou te dar um exemplo: errou conta de divisão simples, de dois dígitos.
Belesma?
Primeiramente parabéns pelo ótimo trabalho!
Bem, fiquei com a sensação que o O1 é mais do mesmo!
Testei alguns prompts relacionados com matemática e engenharia em ambos GPTs e não vi diferença. Cometeu os mesmo erros.
Curioso, fiz um prompt pedindo ao O1 para criar uma tabela de comparação com o GPT4 e Omini, considerando, entre outros critérios, raciocínio lógico, precisão/acuracidade e consistência/repetibilidade das respostas. Pedi que ele atribuísse pesos e justificasse o porquê da escolha. Ele "se considerou" como inferior ao GPT4 e Omini para soluções de média e alta complexidade que envolvam engenharia mecânica.
😊
Em toda s***** da minha vida todas as áreas da minha vida❤😂😢😢😢
Nao entendi, você viu os benchmarks, reviews e estudos ou tá só reproduzindo opiniões sobre o o1?
Eu fiz diversos testes e comparei seus resultados com GPT 4 tradicional e o Omini. Não vi nada demais, nenhuma nova revolução. Elabora todas as equações de forma perfeita, te explica todo o "raciocino"... Fabuloso, porém isso os demais também fazem. Mas na hora de tirar nota 10, continua errando os cálculos matemáticos, muitos deles básicos e fundamentais. Mas ainda assim, na minha opinião ainda é a melhor das IA generativas para multitarefas.
@@fvcapra pode compartilhar os testes?
Na minha leiga interpretação esse modelo nem sequer foi escalado e é o que tem o maior potencial de ganho de performance com escala, as pessoas são muita rápidas no julgamento dos produtos e nem sequer testam direito.
No estado atual esse modelo performa até pior que outros estate of the art em tarefas simples, mas em matemática e física há ganho de performance. Se me recordo bem os ganhos são principalmente na hora de quebrar o problema pra achar a solução e não nos cálculos em si. Na parte de llm ela comete os mesmos erros que as outras já que ela é também um llm.
Porém a performance ficava acima de um ser humano médio e abaixo de um medalhista de ouro no benchmark. Quando era possível fazer várias submissões entretando, ela ultrapassava os medalhistas de ouro, o que se não me engano é uma novidade.
Seria bom que você realizasse seus próprios testes, comparasse com suas expectativas e tirasse suas próprias conclusões. Talvez você se surpreenda com os resultados.
Como meu foco é engenharia, é possível que minha perspectiva seja diferente ou que minhas expectativas estivessem um pouco altas.
Mas vou te dar um exemplo: errou conta de divisão simples, de dois dígitos.
@@fvcapra eu já uso llms e sei algumas diferenças, mas não tenho acesso ao o1 apesar de querer