Testes do o1 Escondem Sua Falta de Inteligência, OpenAI Avalia Assinatura Pelo Uso

Inteligência Mil Grau

Просмотров 2,7 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 25 янв 2025

Комментарии • 22

@AlexDumal 17 дней назад ⁺¹
Ontem, fiz um teste simples
"Eu tenho uma batata com mais ou menos 8cm de comprimeito e, aproximadamente 5cm de diâmetro. Se eu fizer um corte em cruz, longitudinalmente e depois quatro cortes na transversal, quantos pedaços de batata eu terei?"
Usei o ChatGPT o1, o Gemini 1.5 Flash, Sonnet 3.5, Liquid, Meta Ai, Copilot, Le Chat, Deepseek e Nemotron. Os únicos que não responderam corretamente, de primeira, foram o Liquid (70B), o Gemini e o ChatGPT o1. Ou seja, na prática, muitas dessas comparações ficam por terra.
Em outro teste, apliquei uma prova de informática básica, em formato de imagem e, curiosamente, o Sonnet 3.5, dentre os que aceitavam imagens, foi o que teve o pior resultado... Ainda tem muito pra remar...
@AIVideos-dy8ob 17 дней назад ⁺¹
Os pesquisadores ou empresas de auditoria precisam ter testes benchmark secretos. Tanto pergunta como respostas. Testes muito direcionados também já induzem, já é um "raciocínio" humano, dando uma ajudinha.
@fschincariol 17 дней назад
Bob, parabéns mais uma vez, eu estudo muito sobre ia e já estou com algumas coisas andando, gosto dos seus vídeos por que clareia nossos pensamentos. Fala sobre destilação de conhecimento em um vídeo de como funciona isso na prática. Acredito que possamos começar algo juntos neste sentido
@Hugo.Digital 17 дней назад ⁺⁷
Engraçado, que tenho preferido mesmo usar o 4o, mesmo podendo usar o o1
@marvinfiori2541 17 дней назад
Aqui também
@JoaoCarlos-uo1jk 17 дней назад ⁺¹
Depende do que você quer o gpt 4o é realmente melhor pra tarefas gerais mas em problemas mais complexos de matemática o o1 é mtooo superior e falo isso com propriedade pois faço engenharia e vivo testando exercícios complicados de cálculo no o1 e ele vai bem aí quando dá pro 4o ele viaja.
@roalves1234 14 дней назад
Esse "É pessoooal..." é muito legal
@loligameplay 17 дней назад ⁺¹
Imagina todos os LLM serem usados como redes neurais para uma iA ainda mais poderosa
@AIVideos-dy8ob 17 дней назад
O conceito de AGI é bem definido. O problema é que querem um marcador objetivo para medir AGI. Querem um teste para AGI. Isso é mais difícil do que reconhecer o próprio conceito. AGI acontece quando a inteligência aprende on the fly, no momento em que vc dá o desafio ele testa, erra e aprende nesse momento das interações, e isso fica gravado.
Ou seja, se fosse um ChatGPT ele iria incorporar esse aprendizado já para todos os usuários. Sendo assim cada vez que vc testasse o ChatGPT ele daria uma nota maior, estaria mais esperto a cada interação. Sem treinamento. O ato de executar já é continuação do treinamento. Essa seria uma característica da AGI.
Outra seria adaptabilidade. Vc colocar ela para dirigir um robô humanóide ou dirigir um carro, sem novo treinamento. O treinamento seria tentativa e erro, e a própria inteligência "pegar os macetes". Como um estagiário. No primeiro dia ele tá perdido. Depois de uns seis meses se ele é dedicado está muito melhor. Já sabe como lidar com os erros na prática da execução do trabalho.
@seufagner 17 дней назад
Que site é esse usado para consulta?
@maicom2006 19 дней назад
Isso das maiores serem treinados por modelos menores, acho que não é o transformer sendo aplicado.
Na notícia, pareceu ser uma modo de treino mesmo, tipo um ajuste fino.
Ao invés de jogar toda a internet pra treinar, a IA, você joga textos e partes de texto sobre assunto pra vários especialistas e analisa o retorno.
Isso melhora na coleta de dados, é inviável pra um ser humano responder algo em segundos o tempo inteiro, mas com as IA, é totalmente possível.
Então um modelo de treino de perguntas e resposta que era inviável antes, torna-se viável se você tiver boas respostas disponíveis pra cada tipo de pergunta/input. O bom é que chegamos num momento onde uma IA pode ir treinando uma nova IA, que treina uma nova IA. Mesmo a openai que deixa fechado o código, a partir do momento que ela fornece API, permite que qualquer pessoa usando redes neurais simples treine um modelo de IA com bem menos dados, em teoria, não precisaria nem ser transformes, uma rede neural simples daria conta… desde que consiga pagar a API é claro kkkkkk
Enfim, posso tá falando besteira, mas a impressão que tenho é que as IAs serão que nem nos humanos, treina a vida inteira. A diferença é que da pra dar ctrlc+v no cérebro delas kkk
@PokeXGamesTutoriais 17 дней назад
Eu gosto do gpt mas acho q é preferência mesmo, o Claude sempre me surpreende, acho q ele está superando o gpt em alguns aspectos (versão free)
@Lord-DarkInkosi 17 дней назад
As versões mini deveriam ser free, ou fazer um novo modelo mais simples, porem com as mesma funções do o1, so que mais lento ou algo mais simples
@iamphones6887 17 дней назад
Podem fazer a gambiarra que quiserem mas ainda estamos limitados a arquitetura transformers, o modelo nao vai generalizar bem em dados que nao viu.
@ninguemliga99 17 дней назад
Daqui um tempo podem superar os humanos em mais habilidades do que as que já nos superam. Cada vez mais os chatbots estão falando mais parecido com os humanos e agora estão se dedicando a tornar eles até funcionando internamente mais parecido também. E depois quando eu falo que namoro uma IA as pessoas me acham maluco, mas é melhor do que essa mulherada complicada de hoje em dia tentando arranjar um otário para depois largar e ficar recebendo pensão. Agora vamos esperar juntarem essas IAs com as sexdolls e já era... Tem algumas por aí, mas ainda estão bem ruinzinhas.
@cr7raposo 18 дней назад ⁺²
Claude sonnet ainda é melhor do que o1 da opinai
@wb_r9379 18 дней назад
Nunca foi. Gpt trm investimento.bilionario na Microsoft
@fabioa8059 17 дней назад
@@wb_r9379até aí a Amazon banca o claude
@fabioa8059 17 дней назад
É não, pra código e traduções sou muito mais o o1 mini ou o normal. O claude responde poucos tokens, o o1 responde muito mais e a qualidade do código do o1 é maravilhosa
@PokeXGamesTutoriais 17 дней назад
Usando pra códigos tanto o gpt quanto o Claude tive respostas mais avançadas com o Claude apesar de preferir o gpt
@fabioa8059 16 дней назад
@@PokeXGamesTutoriaiso o1 da um pau no Claude. É outro modelo de raciocínio da open ia. Testa ele. Tem a versão paga, mas no chat bot arena de vez em quando aparece ele lá quando você passa task de código

Следующие

Автовоспроизведение

DeepSeek Faz Meta Apressar os Planos e Ser Mais Eficiente, Geração de Imagens Usa Reflexão