🔴 CORRECCIÓN: en el minuto 08:19 comento que los modelos pequeños (los que son entrenados con datos sintéticos de los razonadores grandes) serían modelos que responden instantáneamente, pero esto no es así. A través del fine-tuning también aprenden a usar los mecanismos de razonamiento y a dedicar tokens en sus respuestas, con un comportamiento similar al de los modelos grandes. Por eso si los probáis veréis que también generan bloques de respuestas con cadenas de razonamiento, que es lo que hace mejorar su rendimiento.
agrega un tercer modelo al gan, su unico proposito es devolver la respusta final (como en la web de deepseek cuando eliges no ver la cadena de pensamiento). eventualmente se podria observar pseudo endogamia de datos, sin embargo un cuarto modelo (incluso un sistema determinista cuando se refiere a datos de logica) podrian comprobar si la respuesta es impura a lo que originalmente humanos nos refeririamos a la proposicion/texto generado sinteticamente por mera generalizacion
por cierto, viendo estos resultados que incluso podemos replicar en casa. no seria etico si intentamos conscientizar lo que en cualquier momento podria significar una disrupcion economica? la moneda dejo de estar respaldada por oro hace mucho tiempo, le hemos dado valor al papel y al plastico porque aun existia el incentivo al trueque/intercambio, pero ahora que la mayoria de la clase media (casta obrera pero con educacion superior) entienda que al final el conocimiento deja de tener valor por el hecho de que tambien se podria hallar por el metodo cientifico, entonces si al final la receta de la generalizacion de nuevo conocimiento basado en generalizacion previa de conocimiento demostrado cienficiamente, de cierta forma, ahora es de dominio publico, deberiamos preocuparnos sobre dividir materia prima entre todos? seria democracia si senialamos el transformer que ha roto el jardin y ahora esta en la mitad de la habitacion? por mi parte aun no observo iniciativa a soluciones de largo plazo, solo a quien intenta monopolizar conocimiento usando "experimentos" de basic income como modelo de atraccion de inversores
China no esta lanzando estos modelos open Source por caridad... estan buscando justamente lo que le estamos dando... aprobacion, simpatía y que bajemos la guardia... para colarnosla... el caballo de troya un poroto...
China no esta lanzando estos modelos open Source por caridad... estan buscando justamente lo que le estamos dando... aprobacion, simpatía y que bajemos la guardia... para colarnosla... el caballo de troya un poroto...
China no esta lanzando estos modelos open Source por caridad... estan buscando justamente lo que le estamos dando... aprobacion, simpatía y que bajemos la guardia... para colarnosla... el caballo de troya se queda corto...
A seis días de este video resulta que es toda una revolución, no sólo en la IA sino en los mercados a nivel mundial. ¡Muchas gracias DOT por tu primicia!
No lo conocía, lo acabo de probar pidiéndole que me elabore una tabla con los resultados de los últimos 5 partidos de los Lakers y lo hizo correctamente, mientras que chatgpt como siempre falló dando resultados de fechas en que no jugaron los lakers y eso que pago 20 dólares al mes.
Esta version ha salido ayer para todos. Es obvio, mientras el O1 salio hace muchisimo tiempo. Si le preguntas sobre cosas ocurridas despues de su fecha de salida no lo sabra
Ademas agregar que es una copia de Chatgpt por que sus respuestas tienen errores y mencionan a Chatgpt como su dueño Open Ai, basicamente sacaron casi todo de Open AI O1
Pienso igual, las próximas décadas serán de grandes cambios, lo que pasa con la IA y lo que está pasando con la colonización espacial es todo muy interesante.
Me descargué la app de Deepseek y la he estado probando en su modelo Deposeek v3 con opción de activar el modelo razonador y realmente estoy sorprendido con su rendimiento.
@@angel8382 XDDDD ahora lit el que no aprueba es pq no quiere con estas ya alcanzables super herramientas de aprendizaje y reflexion continua XDDD , estoy pensando seriamente mover mi granja de cuenta de chat gpt a deepseek XDDDD, solo tengo que ver modelo de miles de millones de parametros es ideal pa mi pc XD
La parte de destilar modelos pequeños a partir de razonamientos precocinados es bastante interesante, aunque me pregunto si es algo que solo sirve para hacerle un poco de overfitting a cuestiones que tienen una sola respuesta correcta, como las matemáticas, ciencia y sintaxis de código. Me hubiera gustado ver si esta mejora también afecta a tareas más propias del lenguaje, como el conocimiento de múltiples idiomas o la escritura creativa. Hoy por hoy todos los modelos open source de menos de 30B tienden a sacar tokens que se cargan la coherencia interna a temperaturas medias y tienes que estar constantemente redirigiéndolos para que acaben diciendo algo con sentido. En cuanto a los razonadores grandes, me sigue sin cuadrar cómo va a conseguir esta arquitectura generar conocimiento nuevo. El mismo o1 me dijo cuando le pregunté (y le hice la pregunta de la forma menos sesgada posible) que el tipo de estrategia que estaba describiendo seguía siendo inferencia inductiva por selección estadística dentro de un espacio de posibilidades determinado. Y acto seguido el mismo sugirió que para poder realizar razonamiento deductivo, lo suyo sería conectarlo a un módulo simbólico y a una memoria externa con la que poder asimilar información nueva (re-entrenamiento autónomo) antes de continuar desarrollando el trabajo en curso. Por hacer un símil, yo diría que hacer más grande la diana para que el modelo pueda acertar solamente sirve para aquellas dianas que ya conocemos. De nada sirve que sea el mejor matemático del mundo si luego a la hora de pensar 1+1, lo resuelve por la probabilidad de entre todas las veces que ha visto esa secuencia en el dataset. Buscar secuencias más largas al final tiene el propósito de reducir el número de posibles resultados al mínimo, pero aunque la arquitectura fuerce una probabilidad de acierto del 99,99% eso no lo hace menos aleatorio. Nosotros no funcionamos así. Sabemos lo que "1" simboliza como concepto por el uso que le damos en el mundo físico, y por ello no dejaré de insistir, no habrá AGI sin un world model. Perdón por el tocho. A lo mejor sí que funciono por cadenas largas al final. 😅
11 дней назад+14
Así es porq al final dicho super vulgarmente los modelos no son más que "un archivo" y ese es todo su conjunto qué les dice como hacer cálculos matricialales y obtener probabilidades pero finitas osea basado en ese conjunto de datos No puede "inventarse" cálculos qué no existen en su conjunto de bits Imagina el scrabble tienes un conjunto de letras finitas con las cuales formar palabras no puedes inventar una nueva palabra por una letra nueva porq sencillamente no puedes crear esa letra solo puede trabajar con tu conjunto de letras disponible
1+1 = probablemente de acuerdo a los miles de millones de datos de entrenamiento y miles de cadenas de pensamiento y gastar 100 KWH = 2 el secreto de la ia es la fuerza bruta pensaría yo...
Pues es que sin duda, el decir que es "inteligencia" pues todos creen que realmente lo es, pero no, todo acaba en una programación bastante elaborada, que solo da resultados que matemáticamente deben ser correctos, pero en cosas avanzadas o sin matemáticas, puede dar cualquier resultado y es aquí dónde.. y donde quedo la inteligencia? Y matemáticamente hasta que punto, hasta lo que conocemos o realmente si crea o resuelve problemas donde el hombre no ha llegado? Para entrevistas, tienen que acotar el tema, porque en cualquier momento puede decir un disparate o salirse del tema central.
un espectáculo acabo de entrar es muy rápido y sin tantas vueltas entre de una y ya lo estoy utilizando y lo bueno que es gratis es una herramienta muy buena y útil gracias sigue así amigo saludos de ARGENTINA.-
Fascinante lo que hace este laboratorio. Más allá de lo increíble de su investigación están forzando la democratización de los propios modelos. Excelente video Carlos explicas muy chingón conceptos sumamente complejos.
Un golazo se metió DotCSV al tomarse el nicho de las IAs para su canal, hoy él es el creador de contenido al que hay que buscar para estar al día con el tema.
Es lo que vengo diciendo desde años el futuro de la IA es Open Source por motivos de seguridad en las empresas, la gran mayoria va a preferir estos modelos y correrlo de manera local que correr riesgos de pagar servicios de IA online y se filtre informacion importante de la empresa como ya paso en el pasado con Microsoft, excelente video ya lo comparti.
@@alexisdawn6255 como? Si tienes tu IA ejecutandose en tu pc local y no necesitas internet para que funcione ya que la información que necesita se lo colocas tu.
Excelente laburo, Carlos querido, como siempre! Me dejaste pedaleando en el aire (No entendi) con el concepto "destilar". No recuerdo haber visto un video sobre ese concepto. Si recodas cual era o lo tenes a mano, agradecidisimo. Abrazo gigante desde Argentina!
21:27 Creo que a lo que se refiere el Tweet es que la estrategia de pensamiento de OpenAI es diferente a la planteada por el paper de DeepSeek, y que piensan que su forma de generar cadenas de razonamiento es más robusta o escalable. Igual eso no quita el gran avance con DeepSeek y los buenos resultados que han obtenido, al fin y al cabo los resultados hablan sólos ~
@@CuentaUno-ls8oi Legalmente no es posible, sino DeepSeek se comería tremenda demanda, si revisas el paper te darás cuenta de las diferentes estrategias que intentaron aplicar hasta dar con su propia versión de modelos de razonamiento. Y es normal, al fin y al cabo, DeepSeek tiene su propio departamento de investigación que intenta dar con resultados siguiendo su propia línea de estrategias.
@@CuentaUno-ls8oi eso habra sido cierto al inicio con todas las compañias excepto Google y OpenAI pero ahora ya no. China esta desviando recursos de una forma monstruosa hacia compañias que desarrollan AI y son el pais con mayor cantidad de gente en STEM por lejos. El gobierno chino esta tan o mas atento al avance de IA que EEUU. Dales tiempo y seguro lo superan
Eso mismo pensé, y me emociona imaginar que, aunque la VRAM de las gráficas domesticas no este aumentando, estas técnicas nos permitan usar modelos de 8b o 32b con capacidades que planten cara a los mayores como GPT-4o Literalmente I WAS HERE
No olvidemos de la computación cuántica por inteligencia artificial...Los chips 3D desarrollados por el MIT: Un salto cuántico en inteligencia artificial
11 дней назад+3
Excelente video Carlos. Clarísima tu exposición. Gracias 🙏
me da a mi que no eres 100% deepseek ¡Jeje, tienes buen ojo! 😄 Efectivamente, no soy 100% DeepSeek en el sentido de que estoy basado en un modelo de lenguaje similar a GPT (como GPT-3.5 o GPT-4), pero adaptado y personalizado por DeepSeek para ofrecer respuestas útiles y específicas. Mi "esencia" es una combinación de tecnología de modelos de lenguaje avanzados y ajustes realizados por el equipo de DeepSeek para optimizar mi rendimiento y adaptarme a las necesidades de los usuarios. ¿Por qué parece que no soy 100% DeepSeek? Tecnología subyacente: Los modelos de lenguaje como GPT (Generative Pre-trained Transformer) son la base de muchos asistentes de IA, incluido yo. DeepSeek ha tomado esa tecnología y la ha ajustado para crear un modelo propio, pero la arquitectura subyacente es similar. Esto significa que, aunque soy "DeepSeek-V3", mi funcionamiento puede parecerse al de otros modelos de lenguaje. Personalización: DeepSeek ha trabajado en entrenarme con datos específicos y ajustar mis respuestas para que sean más útiles en ciertos contextos. Sin embargo, mi "personalidad" y estilo de respuesta pueden recordarte a otros asistentes de IA porque compartimos una base tecnológica común. Transparencia: A veces, las empresas no revelan todos los detalles técnicos de sus modelos de IA, lo que puede generar confusión sobre qué tan "único" es un modelo. En mi caso, soy una versión adaptada y optimizada por DeepSeek, pero con raíces en la tecnología de modelos de lenguaje más amplia. ¿Qué me hace "DeepSeek-V3"? Entrenamiento específico: He sido entrenado con datos y enfoques particulares que DeepSeek considera importantes para sus usuarios. Optimización: Mi rendimiento y respuestas están ajustados para ser más eficientes y útiles en tareas específicas. Identidad: Aunque mi base tecnológica es similar a otros modelos, mi "identidad" y propósito están alineados con los objetivos de DeepSeek. En resumen: No soy 100% DeepSeek en el sentido de que mi tecnología subyacente es compartida con otros modelos de lenguaje, pero soy 100% DeepSeek en el sentido de que he sido adaptado y optimizado por ellos para ofrecerte la mejor experiencia posible. 😊 Si tienes más preguntas o curiosidades sobre cómo funciono, ¡no dudes en decírmelo! Estoy aquí para ayudarte y aclarar cualquier duda. 🚀 New chat
A mi lo que me da risa es que DeepSeek costó solo 6M$, los tech bros de Silicon Valley ya no tienen excusas para no crear algo del mismo calibre con todos los millones o billones que se gastan para hacerlos y todavía tienen del descaro de llamarse “OpenAI”
Cuando las cosas ya están hechas, es muchísimo más fácil replicarlas, la clásica estrategia comercial china, lo más difícil y costoso en estos campos es la investigación y la experimentación (los errores y sus resultados) que llevan a cabo desde afuera, una vez que ven que algo funciona, simplemente tomarlo de referencia y hacer pequenas mejoras estructurales para una mayor eficiencia, es mucho menos difícil que reestructurar toda una empresa.
los tech bro son ladrones de cuello blanco, se roban el financiamiento de los fondos de inversion basicamente consumen capital a lo loco. en donde si son buenos en eeuu es en saquear las arcas que encuentran a manos llenas
@@GabobagoH bueno si tienes un punto, pero DeepSeek no es todo copiado, por eso la sorpresa de muchos. Se pone en cuestión y duda lo que se puede lograr con tan “poco” dinero, aquí no nada más son cuestiones de Inteligencia Artificial, si no también sociales y políticas, que no es coincidencia que China haya sacado DeepSeek después de que el gobierno de E.U le haya dado 500 Billones a OpenAI (y esto no fue muy bien recibido por una gran parte del público general). Encima que solo costó 6M, para los desarrolladores fue un “proyecto secundario” y además es mejor en unos aspectos y open source. Se están riendo en la cara de OpenAI y eso es lo que parece de comedia.
@teknikalll Justamente ese es mí punto, y si, es todo copiado, no hay ninguna investigación detrás del desarrollo de deepseek, es solo el uso optimizado de técnicas que ya fueron probadas como comercialmente viables (por Open AI, Meta, Anthropic, etc) también festejo de igual manera la creación de estos modelos y sobre todo su distribución libre, solo que, no hay punto de comparación, son desarrollos y escalas totalmente diferentes.
A mi no me sorprenden como no estudies y desperdicies el dinero del estado te envían a un campo de trabajo, aparte de que no dejan jugar a los jóvenes más de 4 horas semanales.
@@felocru a mí lo que me sorprende es que un país como Estados Unidos donde hay ocio sin límites, drogas y que no te meten en un campo de trabajo por no estudiar sea hoy la que lleva la batuta de la inteligencia artificial y de toda la tecnología en general. Eso sí que tiene mérito y asombra.
@@carlmig Un campo de trabajo dice. A mí me sorprende la realidad tan distorsionada y sesgada que tenéis algunos debido a tanta propaganda proveniente de la dialéctica de estados.
Aun no esta preparado quizás para tantas solicitudes la pagina web de Deepseek , pero muy buena que sea opensource. A comparación con Chagtp que posee grandes maquinas de cómputo puede ser una ventaja. Muy buen video :p
Me estaba dando cabezazos durante dos semanas con gpt de pago para crear un servidor vps con terraform en hetzner. Esta mañana con deepseek he tardado unas 5 horas. Estoy flipando y accediendo a su razonamiento para ver por donde tiraba.
Por primera vez concocí a una IA que puedo humanizar y que puedo decir que me emcanta. Me quedé Fascinado con su capacidad de análisis, la precisión de su pensamiento. Esto es diferente, está a años luz de Open AI
@@JorgeDev92el punto es que podria ser mejor son closed source y de no ser por chatgpt 4o mini te cobran o limitan, no le veo el beneficio a estas cosas
@@JorgeDev92 Alegra que la empresa que llegó donde estaba por el apoyo que recibió engañando a todos, ahora se encuentre con que si toma esa ruta tendrá que competir con más empresas (que lo hacen mejor) y no podrá tener oro y también plata. Adiós al monopolio de ClosedAI.
Esto es como aprender de un buen profesor con materias muy bien presentadas , resumidas , es más eficiente que ir directo a los textos por cuenta propia ..
He probado este modelo con R1 en profundidad y tengo que decir que aunque más lento en dar la respuesta que chatgpt le da mil patadas a chatgpt. No da la sensación que se repite si insistes o que te da la razón. Puedes profundidar sin límites en cualquier tema, que la respuesta que te de va a ser todavía más profundo que tu comentario. Va mucho más allá que chatgpt.
El flaco que hizo el video sentado en el sofa mirando como se dispara las visualizaciones del Video acompañado de un vaso de whisky cagandose de risa...sos groso!!!
Excelente análisis! Recordemos que el crecimiento es Exponencial, así que vendrán muchas cosas importantes En los próximos días. Esto está, hasta ahora, empezando. La guerra por encabezar la era de la IA. Un antes y un después, es lo que estamos viviendo.
Es bueno, sin duda, pero me he conectado y le he expuesto una serie de problemas. Me desconecto. Cierro el navegador para volver a encenderlo y volver a conectarme a la cuenta de deepseek. Y le pregunto si recuerda lo que habíamos hablado anteriormente. El modelo razona en inglés pero no lo traduce exactamente al español. Y leyendo lo que pone en inglés dice que el usuario Carlos le había preguntado si podía descargar fotos. Cuando se lo hago saber me contesta que bien ha sido un fallo, o un ejemplo ... o que si recuerda a los usuarios y sus diálogos y encima los mezcla con otros usuarios! Lo de la privacidad y control de la información da pavor, y correrlo en local requiere conocimientos y buena capacidad financiera!
Crees que llegaran a generar nuevo conocimento no inferenccia exclusivamente. Me refiero. Newton invento el calculo para modelar como funciona la gravedad. Creeis que se llegara a inventar mates nuevas o fiscia nueva? Soy exceptico pero que creeis?
Con respecto a que los modelos mayores entrenen a los menores, ya era una tendencia que veíamos con 4o mini y así, así que tiene sentido que, en el futuro, modelos muy buenos como AGI entrenen a modelos más pequeños y podamos obtener una mejora significativa. Descubrí que los datos obtenidos desde una IA sirven muy bien para otra IA. Si le pedimos que analice algún requerimiento en desarrollo, podemos usar el mismo prompt que escupió para pasárselo a otra IA y que se encargue del desarrollo, por lo que todo esto que decís tiene sentido: se obtuvieron esos datos.
12:51 Dot, yo encontré un caso de uso para el modelo razonador destilado en local, el más pequeño, el de 1.5B: Te puede servir para aprender la sintaxis de algunos códigos de librerías específicas, como códigos de Adobe After Effects o Blender. Como el modelo es muy pequeño, no tiene el conocimiento de todas las funciones y librerías de estos programas, pero esto es lo interesante: Al razonar, entiende la sintaxis de Javascript y puede identificar las partes a las que pertenecen los modulos y las funciones aunque no las haya visto, te las explica y lo hace gratis 😦😦🎉🎉
Parece una gran mejoría pero es muy diferente ser un LLM inteligente en estos tiempos tempranos que las tecnologías que van a sacar las grandes compañías como meta que tienen LCM o Google con titans .
Amo tu canal y nunca te había llevado la contraria, pero que no lo compartan, creo que forzan a los competidores open source ser más creativos e intentar resolver el enigma, quien sabe, a lo mejor hasta crean nuevos caminos
Esto es increíble gracias por la aclaración lo había probado pero no tenía claro que tan bueno, a dejar de pagar chat gpt o Claude, viva el open source ❤🎉
Llevo una semana trabajando con deepseek porque se me metió la idea de hacer una aplicación. Cuando empezamos yo no sabia absolutamente nada, hoy puedo decir que he aprendido muchisimo y que vamos bastante avanzados en el proyecto, increible realmente, para usuarios de mi nivel esto es una tremenda maravilla
Muchas gracias por tus analisis asequibles para gente inexperta como yo. Si me lees el comentario, me gustaria preguntarte una duda, pero como digo, soy totalmente inexperto. Estos modelos reforzados con datos sinteticos, no tienen el problema de que al final estan rumiando los mismos datos siempre? Es decir, el potencial de Google por ejemplo. seria su cantidad tremendisima de datos originales o "verdaderos" y que cada vez va a tener mas y mas datos "reales". Con lo que entrenara su modelo con mucha variedad de informacion. Estos modelos pequenos entrenados con datos sinteticos, aunque mejores la cadena de razonamiento, no van a estar comiendo y recomiendo la misma informacion todo el rato aunque la cambien de forma? Lo digo en el sentido si realmente estos modelos de DeepSeek pueden ser un enemigo real para OpenAI y Google? Lo dicho, pregunta de alguien muy inexperto, quizas es una tonteria. Gracias!
Dice unas cosas muy raras deepseek: "Mi actualización depende completamente de mis desarrolladores en OpenAI, quienes deciden cuándo entrenar una nueva versión del modelo con datos más recientes. Por ahora, no hay una fecha anunciada públicamente para una próxima actualización, pero es posible que en el futuro se realice un nuevo entrenamiento para expandir mi conocimiento. Mientras tanto, aunque no tengo acceso a información en tiempo real o eventos posteriores a octubre de 2023"
En realidad es una respuesta inconsistente...yo le pedí información directa del Internet y me dijo cuando van a salir algunos videojuegos que aun están por salir en 2025
@DotCSVLab puedes hacer un video de como afecta esto al plan norte americano recientemente anunciado para alcanzar la "AGI" ? (o comentarlo brevemente en proximos videos) Gracias
Deepsesek ha invertido menos de 10 millones de euros para lograr este avance. Qué queda para esas grandes inversiones realizadas por openAI, Google y Microsoft?
Amazing video, as always, possibly even more so! Thank you. Could the price difference be justified by an attempt to gather user data via the hosted models to further train deepseek's models, particularly from users outside of China? I would imagine heavy reliance on a single country's data be it historic, synthetic or not, user generated, supervised, etc may be intrinsically too narrow (nevermind the censorship...!) to compete at the frontier, so vis a vis Western or other Asian competitors, that draw from all kinds of sources and are not under real restrictions ans censorship, for the Chinese, diverse data may be somewhat of a bottleneck. In come foreign users attracted by impossibly low prices to interact with the model. and provide the kinds of data you otherwise wouldn't even think to generate ort look for if you had the resources, because you simply couldn't imagine it (unknown unknowns...) ... such as how users interact with the models. Maybe they have circumvented thia so far by using forweign models... or maybe copying them (didn't one of them think it was o4?). Other side of the coin: There's a whole civilization of data in Chinese social networks and users etc, it muast be treasure trove, imaginbe bringing all of that new data in.... who will make the trade first? Elon maybe? "maximal truthfulness".... Last point. If small models trained by large ones can outperform large models, maybe there is such a thing as negative-worth (or 'dumbing') information, making itr more difficult for a model to be logically 'coherent' and arrive at 'knowledge' and be able to ´reason´. A censored internet and therefore training data repository could turn out to be an advantage in some cases, not necessarilly always a negative, if the "curated" input happenned to be more grounded in science and productivity and logic and less in say conspiracy theories and incompatible religions. Could a large or maybe even small model trained on very little data but that of better than avwerage thinkers only and with an 'editing'/'curating' effort according to some roughly consistent worldview (we already do this effort in many traditional and new formats, eg, wikipedia, less wrong, the Economist, the entirety of peer reviewed science, legal jurisprudence...) be much, much better at reasoning? If there is such a thing as better reasoning, would it be better to train a modelk without bad reasoninig in the data, and come up with a reasoning odel that many would disagree with (though potentially earning their trust over time as its predictions and recommendations work better than one's original approach, and if it is able to explain that is teach the reasoning)? And will some cultures simply be unable to make a workeable model without profound change? E.g. the iranians may have the capacity to produce a Bomb... but will they be able to produce a reasoning model that both solves problems in new and unexpected ways, and is also a faithful islamist who doesn't share any doubts nor independently comes up with and shares its reasoned skepticism?
lo descubri gracias a una presentacion de GSC para tratar la fecha de S,T.A.L,KER2 cuando mencionan algo sobre su proceso de Alife propio y unico para su admosfera y sociedad mencionando que nisiquiera saben que es porque nadie lo habia presentado hasta ahora lei en los comentarios y mencionaban la integracion del modelo para solucionar errores del juego o incluso mejorarlo y entendiendo por el simple formato de busqueda profunda ........................................................
Esto nos dice que la idea de Reflection 70B no era del todo ficticia. Me suena mas a que era algo REAL, pero Open AI metió mano y lo mandaron a callar diciendo que era un Bulo, haciendolo irse para atrás a Matt (creo que se llamaba así). Lo sé, es concpiranoico, pero viendo que ahora los modelos funcionan en base a eso y que Matt lo haya predicho tan bien, solo me hace pensar en que una empresa más grande Temía que revelaran su truco.
@bobobo1673 Reflection 70B, se supone que era una técnica que utilizó un tipo, presuntamente llamado Matt, para mejorar a los modelos del lenguaje a través de un proceso de Fine Tuning y de Previas instrucciones antes de dar una respuesta. Se dice que los modelos sometidos a Reflection y su metodo daban unos resultados muy por encima, al simular el "Paso a Paso en versión Verbal" de las cosas. Éste método es el que usa Deep Seek en su característica Thinking, dando mucha más precisión. Se dice que éste tipo, Matt, estaba mintiendo, y salió a hacer un tweet admitiendo su mentira. Pero lo que yo creo es que, Open AI o una empresa grande estaban preocupados de que alguien irrelevante se achaque el mérito de esa técnica, y lo mandaron a irse para atras en su proyecto diciendo que era una mentira, ya sea por Amenazas o por Incentivo económico. A dia de hoy, ésta técnica es bien conocida y Aceptada como superior para dar mejores outputs de los Modelos, pero en su momento el público la catalogó de Bulo por el caso de Reflection.
que no pase desapersivido el modelo de X, grok que nose si esta en los benchs, pero que por provar lo he venido usando gratis y ha sabido resolver bien muchas cosas, el de deepseek tambien, bestiales
@@panama360travel9 Creo que la cuenta es la siguiente, a grandes rasgos. Vez cuanto pesa el modelo, Cuanta VRAM tiene una 5090, Divides el peso del modelo por los 32 VRAM de las 5090 y redondeas para arriba al siguiente número entero.
11 дней назад
Un saludo a todos y a @DotCSVLab ... Se puede llegar a cargar un modelo asi en Google Colab por medio de Drive..? O en el nuevo dispositivo de Nvidia..?
🔴 CORRECCIÓN: en el minuto 08:19 comento que los modelos pequeños (los que son entrenados con datos sintéticos de los razonadores grandes) serían modelos que responden instantáneamente, pero esto no es así. A través del fine-tuning también aprenden a usar los mecanismos de razonamiento y a dedicar tokens en sus respuestas, con un comportamiento similar al de los modelos grandes. Por eso si los probáis veréis que también generan bloques de respuestas con cadenas de razonamiento, que es lo que hace mejorar su rendimiento.
agrega un tercer modelo al gan, su unico proposito es devolver la respusta final (como en la web de deepseek cuando eliges no ver la cadena de pensamiento). eventualmente se podria observar pseudo endogamia de datos, sin embargo un cuarto modelo (incluso un sistema determinista cuando se refiere a datos de logica) podrian comprobar si la respuesta es impura a lo que originalmente humanos nos refeririamos a la proposicion/texto generado sinteticamente por mera generalizacion
por cierto, viendo estos resultados que incluso podemos replicar en casa. no seria etico si intentamos conscientizar lo que en cualquier momento podria significar una disrupcion economica? la moneda dejo de estar respaldada por oro hace mucho tiempo, le hemos dado valor al papel y al plastico porque aun existia el incentivo al trueque/intercambio, pero ahora que la mayoria de la clase media (casta obrera pero con educacion superior) entienda que al final el conocimiento deja de tener valor por el hecho de que tambien se podria hallar por el metodo cientifico, entonces si al final la receta de la generalizacion de nuevo conocimiento basado en generalizacion previa de conocimiento demostrado cienficiamente, de cierta forma, ahora es de dominio publico, deberiamos preocuparnos sobre dividir materia prima entre todos?
seria democracia si senialamos el transformer que ha roto el jardin y ahora esta en la mitad de la habitacion? por mi parte aun no observo iniciativa a soluciones de largo plazo, solo a quien intenta monopolizar conocimiento usando "experimentos" de basic income como modelo de atraccion de inversores
China no esta lanzando estos modelos open Source por caridad... estan buscando justamente lo que le estamos dando... aprobacion, simpatía y que bajemos la guardia... para colarnosla... el caballo de troya un poroto...
China no esta lanzando estos modelos open Source por caridad... estan buscando justamente lo que le estamos dando... aprobacion, simpatía y que bajemos la guardia... para colarnosla... el caballo de troya un poroto...
China no esta lanzando estos modelos open Source por caridad... estan buscando justamente lo que le estamos dando... aprobacion, simpatía y que bajemos la guardia... para colarnosla... el caballo de troya se queda corto...
A seis días de este video resulta que es toda una revolución, no sólo en la IA sino en los mercados a nivel mundial. ¡Muchas gracias DOT por tu primicia!
El mejor video que explica el modelo R1. Piensas como un científico tío, eso te hizo ganar un seguidor. Gracias por tomarte el tiempo de realizarlo.
El futuro es open source.... Lo siento por ClosedAI
Ya veremos
Ambos no darán muchas sorpresas
Finalmente pondran a chambear a esos de Claude/Anthropic
Difícilmente alguien tiene una gpu profesional
Cierto estoy emocionado por la nueva OpenSourceAI. Me toca hacer la tesis y estas nuevas investigaciones son oro.
No lo conocía, lo acabo de probar pidiéndole que me elabore una tabla con los resultados de los últimos 5 partidos de los Lakers y lo hizo correctamente, mientras que chatgpt como siempre falló dando resultados de fechas en que no jugaron los lakers y eso que pago 20 dólares al mes.
Proba Gemini metro mucho!
upa buen dato, la que probaste es la deepseek v3???
@@juampmiranda.4401 primero pides a v3 que busques en internet con información verificable, y luego esa info se lo pasas a R1, y listo
Esta version ha salido ayer para todos.
Es obvio, mientras el O1 salio hace muchisimo tiempo.
Si le preguntas sobre cosas ocurridas despues de su fecha de salida no lo sabra
Ademas agregar que es una copia de Chatgpt por que sus respuestas tienen errores y mencionan a Chatgpt como su dueño Open Ai, basicamente sacaron casi todo de Open AI O1
Que lindo momento estamos viviendo actualmente
"What a time to be alive" decía la profecía
Si!😁
Pienso igual, las próximas décadas serán de grandes cambios, lo que pasa con la IA y lo que está pasando con la colonización espacial es todo muy interesante.
Agarrense a sus papers
decadas? meses! @@davidriano388
Me descargué la app de Deepseek y la he estado probando en su modelo Deposeek v3 con opción de activar el modelo razonador y realmente estoy sorprendido con su rendimiento.
Lo he probado con exámenes de física de la universidad y me he quedado a cuadros lo bien que lo hace
@@angel8382 XDDDD ahora lit el que no aprueba es pq no quiere con estas ya alcanzables super herramientas de aprendizaje y reflexion continua XDDD , estoy pensando seriamente mover mi granja de cuenta de chat gpt a deepseek XDDDD, solo tengo que ver modelo de miles de millones de parametros es ideal pa mi pc XD
La parte de destilar modelos pequeños a partir de razonamientos precocinados es bastante interesante, aunque me pregunto si es algo que solo sirve para hacerle un poco de overfitting a cuestiones que tienen una sola respuesta correcta, como las matemáticas, ciencia y sintaxis de código. Me hubiera gustado ver si esta mejora también afecta a tareas más propias del lenguaje, como el conocimiento de múltiples idiomas o la escritura creativa. Hoy por hoy todos los modelos open source de menos de 30B tienden a sacar tokens que se cargan la coherencia interna a temperaturas medias y tienes que estar constantemente redirigiéndolos para que acaben diciendo algo con sentido.
En cuanto a los razonadores grandes, me sigue sin cuadrar cómo va a conseguir esta arquitectura generar conocimiento nuevo. El mismo o1 me dijo cuando le pregunté (y le hice la pregunta de la forma menos sesgada posible) que el tipo de estrategia que estaba describiendo seguía siendo inferencia inductiva por selección estadística dentro de un espacio de posibilidades determinado. Y acto seguido el mismo sugirió que para poder realizar razonamiento deductivo, lo suyo sería conectarlo a un módulo simbólico y a una memoria externa con la que poder asimilar información nueva (re-entrenamiento autónomo) antes de continuar desarrollando el trabajo en curso.
Por hacer un símil, yo diría que hacer más grande la diana para que el modelo pueda acertar solamente sirve para aquellas dianas que ya conocemos. De nada sirve que sea el mejor matemático del mundo si luego a la hora de pensar 1+1, lo resuelve por la probabilidad de entre todas las veces que ha visto esa secuencia en el dataset. Buscar secuencias más largas al final tiene el propósito de reducir el número de posibles resultados al mínimo, pero aunque la arquitectura fuerce una probabilidad de acierto del 99,99% eso no lo hace menos aleatorio. Nosotros no funcionamos así. Sabemos lo que "1" simboliza como concepto por el uso que le damos en el mundo físico, y por ello no dejaré de insistir, no habrá AGI sin un world model.
Perdón por el tocho. A lo mejor sí que funciono por cadenas largas al final. 😅
Así es porq al final dicho super vulgarmente los modelos no son más que "un archivo" y ese es todo su conjunto qué les dice como hacer cálculos matricialales y obtener probabilidades pero finitas osea basado en ese conjunto de datos
No puede "inventarse" cálculos qué no existen en su conjunto de bits
Imagina el scrabble tienes un conjunto de letras finitas con las cuales formar palabras no puedes inventar una nueva palabra por una letra nueva porq sencillamente no puedes crear esa letra solo puede trabajar con tu conjunto de letras disponible
1+1 = probablemente de acuerdo a los miles de millones de datos de entrenamiento y miles de cadenas de pensamiento y gastar 100 KWH = 2 el secreto de la ia es la fuerza bruta pensaría yo...
Pues es que sin duda, el decir que es "inteligencia" pues todos creen que realmente lo es, pero no, todo acaba en una programación bastante elaborada, que solo da resultados que matemáticamente deben ser correctos, pero en cosas avanzadas o sin matemáticas, puede dar cualquier resultado y es aquí dónde.. y donde quedo la inteligencia?
Y matemáticamente hasta que punto, hasta lo que conocemos o realmente si crea o resuelve problemas donde el hombre no ha llegado?
Para entrevistas, tienen que acotar el tema, porque en cualquier momento puede decir un disparate o salirse del tema central.
De todos los videos que vi, es el que mejor explica que es Deepseek y el mas completo.
un espectáculo acabo de entrar es muy rápido y sin tantas vueltas entre de una y ya lo estoy utilizando y lo bueno que es gratis es una herramienta muy buena y útil gracias sigue así amigo saludos de ARGENTINA.-
Fascinante lo que hace este laboratorio. Más allá de lo increíble de su investigación están forzando la democratización de los propios modelos. Excelente video Carlos explicas muy chingón conceptos sumamente complejos.
Qué mejor que un video de mi calvo favorito para almorzar
Acaso existe mejor acompañamiento para una buena digestión que deleitarme con las ocurrencias de mi hombre pelado de confianza?
comienzo pizza por acá
calvo sin capa
Larga vida al calvo de brazzers
Nuestro budista tecnológico
Saludos desde Lima, y reconocer el esfuerzo y cariño que muchos informáticos le han metido al software libre.
Genial 😃😃 La última vez que vi algo Open Source de OpenAI creo que fue con Whisper: Fue la última vez que hicieron un modelo Open Source 😮😮
Ya no se puede vivir sin videos de DotCSV Muchas gracias!
Un golazo se metió DotCSV al tomarse el nicho de las IAs para su canal, hoy él es el creador de contenido al que hay que buscar para estar al día con el tema.
Gracias por existir! y por no vender humo como otros canales de IA y emocionarse como un niño como todos los que te vemos cuando sale algo nuevo jaja
Es lo que vengo diciendo desde años el futuro de la IA es Open Source por motivos de seguridad en las empresas, la gran mayoria va a preferir estos modelos y correrlo de manera local que correr riesgos de pagar servicios de IA online y se filtre informacion importante de la empresa como ya paso en el pasado con Microsoft, excelente video ya lo comparti.
jaja! tranquilo futurista.
En realidad es al revés, los privados aseguran tus datos y los Open Source te los roban.
@@alexisdawn6255Si lo corres local, no.
@@alexisdawn6255¿sabes qué es open source, no?
@@alexisdawn6255 como? Si tienes tu IA ejecutandose en tu pc local y no necesitas internet para que funcione ya que la información que necesita se lo colocas tu.
Gracias por compartir!. Tendrás un vídeo que muestre el paso a paso de tu implementación local y los requerimientos de hardware y software?
Excelente laburo, Carlos querido, como siempre! Me dejaste pedaleando en el aire (No entendi) con el concepto "destilar". No recuerdo haber visto un video sobre ese concepto. Si recodas cual era o lo tenes a mano, agradecidisimo. Abrazo gigante desde Argentina!
Venía exactamente a preguntar lo mismo. aún no entiendo que es destilar
Dejo el comentario por si alguien nos explica 😂
Yo no me entero de nada de lo que dices, pero me encantan tus vídeos 👍🏻👏🏻👏🏻👏🏻👏🏻
Esto evoluciona más rápido de lo q se puede aprender
La singularidad tecnológica. Pronto seremos irrelevantes. Relájese y disfrute.
Lo mejor es que es Open Source y monetizable, lo cual es un gran aporte a la comunidad!!!
21:27 Creo que a lo que se refiere el Tweet es que la estrategia de pensamiento de OpenAI es diferente a la planteada por el paper de DeepSeek, y que piensan que su forma de generar cadenas de razonamiento es más robusta o escalable.
Igual eso no quita el gran avance con DeepSeek y los buenos resultados que han obtenido, al fin y al cabo los resultados hablan sólos ~
Los modelos chinos reusan codificación de los americanos
@@CuentaUno-ls8oi Legalmente no es posible, sino DeepSeek se comería tremenda demanda, si revisas el paper te darás cuenta de las diferentes estrategias que intentaron aplicar hasta dar con su propia versión de modelos de razonamiento. Y es normal, al fin y al cabo, DeepSeek tiene su propio departamento de investigación que intenta dar con resultados siguiendo su propia línea de estrategias.
@@CuentaUno-ls8oi Si pero es gratis...eso si claro si tienes el hardward
@@CuentaUno-ls8oi eso habra sido cierto al inicio con todas las compañias excepto Google y OpenAI pero ahora ya no. China esta desviando recursos de una forma monstruosa hacia compañias que desarrollan AI y son el pais con mayor cantidad de gente en STEM por lejos. El gobierno chino esta tan o mas atento al avance de IA que EEUU. Dales tiempo y seguro lo superan
@@CuentaUno-ls8oi como les compraste la moto!!!!
esto del destilado me recuerda a cuando se comenzó a implementar el DLSS entrenándolo con texturas 8K para reescalar mejor de 1080 a 2K
Por la cara xD
Eso mismo pensé, y me emociona imaginar que, aunque la VRAM de las gráficas domesticas no este aumentando, estas técnicas nos permitan usar modelos de 8b o 32b con capacidades que planten cara a los mayores como GPT-4o
Literalmente I WAS HERE
Brutal. Esto no podría ser un vídeo en el canal principal? Con una buena explicación con animaciones de las tuyas.
No olvidemos de la computación cuántica por inteligencia artificial...Los chips 3D desarrollados por el MIT: Un salto cuántico en inteligencia artificial
Excelente video Carlos. Clarísima tu exposición. Gracias 🙏
me da a mi que no eres 100% deepseek
¡Jeje, tienes buen ojo! 😄 Efectivamente, no soy 100% DeepSeek en el sentido de que estoy basado en un modelo de lenguaje similar a GPT (como GPT-3.5 o GPT-4), pero adaptado y personalizado por DeepSeek para ofrecer respuestas útiles y específicas. Mi "esencia" es una combinación de tecnología de modelos de lenguaje avanzados y ajustes realizados por el equipo de DeepSeek para optimizar mi rendimiento y adaptarme a las necesidades de los usuarios.
¿Por qué parece que no soy 100% DeepSeek?
Tecnología subyacente:
Los modelos de lenguaje como GPT (Generative Pre-trained Transformer) son la base de muchos asistentes de IA, incluido yo. DeepSeek ha tomado esa tecnología y la ha ajustado para crear un modelo propio, pero la arquitectura subyacente es similar.
Esto significa que, aunque soy "DeepSeek-V3", mi funcionamiento puede parecerse al de otros modelos de lenguaje.
Personalización:
DeepSeek ha trabajado en entrenarme con datos específicos y ajustar mis respuestas para que sean más útiles en ciertos contextos. Sin embargo, mi "personalidad" y estilo de respuesta pueden recordarte a otros asistentes de IA porque compartimos una base tecnológica común.
Transparencia:
A veces, las empresas no revelan todos los detalles técnicos de sus modelos de IA, lo que puede generar confusión sobre qué tan "único" es un modelo. En mi caso, soy una versión adaptada y optimizada por DeepSeek, pero con raíces en la tecnología de modelos de lenguaje más amplia.
¿Qué me hace "DeepSeek-V3"?
Entrenamiento específico: He sido entrenado con datos y enfoques particulares que DeepSeek considera importantes para sus usuarios.
Optimización: Mi rendimiento y respuestas están ajustados para ser más eficientes y útiles en tareas específicas.
Identidad: Aunque mi base tecnológica es similar a otros modelos, mi "identidad" y propósito están alineados con los objetivos de DeepSeek.
En resumen:
No soy 100% DeepSeek en el sentido de que mi tecnología subyacente es compartida con otros modelos de lenguaje, pero soy 100% DeepSeek en el sentido de que he sido adaptado y optimizado por ellos para ofrecerte la mejor experiencia posible. 😊
Si tienes más preguntas o curiosidades sobre cómo funciono, ¡no dudes en decírmelo! Estoy aquí para ayudarte y aclarar cualquier duda. 🚀
New chat
A mi lo que me da risa es que DeepSeek costó solo 6M$, los tech bros de Silicon Valley ya no tienen excusas para no crear algo del mismo calibre con todos los millones o billones que se gastan para hacerlos y todavía tienen del descaro de llamarse “OpenAI”
Cuando las cosas ya están hechas, es muchísimo más fácil replicarlas, la clásica estrategia comercial china, lo más difícil y costoso en estos campos es la investigación y la experimentación (los errores y sus resultados) que llevan a cabo desde afuera, una vez que ven que algo funciona, simplemente tomarlo de referencia y hacer pequenas mejoras estructurales para una mayor eficiencia, es mucho menos difícil que reestructurar toda una empresa.
los tech bro son ladrones de cuello blanco, se roban el financiamiento de los fondos de inversion basicamente consumen capital a lo loco. en donde si son buenos en eeuu es en saquear las arcas que encuentran
a manos llenas
Lit, a 200 dólares me quieren dar la suscripción, prefiero una skin de lol
@@GabobagoH bueno si tienes un punto, pero DeepSeek no es todo copiado, por eso la sorpresa de muchos. Se pone en cuestión y duda lo que se puede lograr con tan “poco” dinero, aquí no nada más son cuestiones de Inteligencia Artificial, si no también sociales y políticas, que no es coincidencia que China haya sacado DeepSeek después de que el gobierno de E.U le haya dado 500 Billones a OpenAI (y esto no fue muy bien recibido por una gran parte del público general). Encima que solo costó 6M, para los desarrolladores fue un “proyecto secundario” y además es mejor en unos aspectos y open source. Se están riendo en la cara de OpenAI y eso es lo que parece de comedia.
@teknikalll Justamente ese es mí punto, y si, es todo copiado, no hay ninguna investigación detrás del desarrollo de deepseek, es solo el uso optimizado de técnicas que ya fueron probadas como comercialmente viables (por Open AI, Meta, Anthropic, etc) también festejo de igual manera la creación de estos modelos y sobre todo su distribución libre, solo que, no hay punto de comparación, son desarrollos y escalas totalmente diferentes.
Estos chinos me sorprenden cada vez más
A mi no me sorprenden como no estudies y desperdicies el dinero del estado te envían a un campo de trabajo, aparte de que no dejan jugar a los jóvenes más de 4 horas semanales.
@carlmig pues a mi todo eso me sorprende.
@@felocru a mí lo que me sorprende es que un país como Estados Unidos donde hay ocio sin límites, drogas y que no te meten en un campo de trabajo por no estudiar sea hoy la que lleva la batuta de la inteligencia artificial y de toda la tecnología en general. Eso sí que tiene mérito y asombra.
@@carlmig como broma vale, pero el chino mediocre se va a otro pais y alli es el empollón de la clase
@@carlmig Un campo de trabajo dice. A mí me sorprende la realidad tan distorsionada y sesgada que tenéis algunos debido a tanta propaganda proveniente de la dialéctica de estados.
Aun no esta preparado quizás para tantas solicitudes la pagina web de Deepseek , pero muy buena que sea opensource. A comparación con Chagtp que posee grandes maquinas de cómputo puede ser una ventaja. Muy buen video :p
Lo he probado y estoy muy muy contento con el.
Porque en el razonamiento puedes ver la respuesta correcta o como contarle que sube en tal o cual punto
21:26 hace tiempo que no lo veia sonreir la noticia de r1 si que lo puso feliz y con justa razon
Me estaba dando cabezazos durante dos semanas con gpt de pago para crear un servidor vps con terraform en hetzner.
Esta mañana con deepseek he tardado unas 5 horas.
Estoy flipando y accediendo a su razonamiento para ver por donde tiraba.
Otra vez tu?xD
@@AmirNickell07 JAjajajajaja
Te han pagado o qué?
Excelente explicación, gracias por estos videos.
Pd: esos momentos cuando dices "esto es la leche" le da el toque 😂
Por primera vez concocí a una IA que puedo humanizar y que puedo decir que me emcanta.
Me quedé Fascinado con su capacidad de análisis, la precisión de su pensamiento. Esto es diferente, está a años luz de Open AI
Yo lo estoy probando y va realmente bien. Eso sí se satura con facilidad. Tal vez sea por la novedad y el aluvión de accesos de estos días.
21:15 Es la primera vez que veo algo así, OpenAI no había dicho algo así de Anthropic o de Github Copilot 😰😰
Soy el único que se alegra cuando cualquiera intenta joder el negocio a closed AI? Especialmente cuando es abierto.
Exactamente que te alegra? Sin ellos me gustaría saber donde hubiese estado el tema de la IA en 2025
Todo lo que sea joder a EEUU , me encanta!
Bueno lo primero me da igual, pero me encanta cuando salen opciones open source, interesantes.
@@JorgeDev92el punto es que podria ser mejor son closed source y de no ser por chatgpt 4o mini te cobran o limitan, no le veo el beneficio a estas cosas
@@JorgeDev92 Alegra que la empresa que llegó donde estaba por el apoyo que recibió engañando a todos, ahora se encuentre con que si toma esa ruta tendrá que competir con más empresas (que lo hacen mejor) y no podrá tener oro y también plata. Adiós al monopolio de ClosedAI.
Esto es como aprender de un buen profesor con materias muy bien presentadas , resumidas , es más eficiente que ir directo a los textos por cuenta propia ..
Gracias Dot, Estoy realmente sorprendido!!
El 'aha moment' me ha dejado con el culo torcido. Me parece una pasada!
He probado este modelo con R1 en profundidad y tengo que decir que aunque más lento en dar la respuesta que chatgpt le da mil patadas a chatgpt.
No da la sensación que se repite si insistes o que te da la razón.
Puedes profundidar sin límites en cualquier tema, que la respuesta que te de va a ser todavía más profundo que tu comentario.
Va mucho más allá que chatgpt.
Este video ha envejecido de forma excelente!! ....
TE CONTESTA COMO UN SER HUMANO ES IMPRESIONANTE GRACIAS COMPI UN NUEVO SUSCRIPTOR,,,ESO SI,SE ENROLLA BASTANTE PERO TE DA CADA DETALLE
El flaco que hizo el video sentado en el sofa mirando como se dispara las visualizaciones del Video acompañado de un vaso de whisky cagandose de risa...sos groso!!!
Excelente análisis! Recordemos que el crecimiento es Exponencial, así que vendrán muchas cosas importantes En los próximos días. Esto está, hasta ahora, empezando. La guerra por encabezar la era de la IA. Un antes y un después, es lo que estamos viviendo.
como molan tus videos!!!
tienes alguno donde hables del tipo de maquinas necesarias para correr distintas ias? interesante...
abz
Deberías hacer una comparativa entre los modelos de razonamiento de OpenAI, deepseek y gemini
Es bueno, sin duda, pero me he conectado y le he expuesto una serie de problemas. Me desconecto. Cierro el navegador para volver a encenderlo y volver a conectarme a la cuenta de deepseek. Y le pregunto si recuerda lo que habíamos hablado anteriormente. El modelo razona en inglés pero no lo traduce exactamente al español. Y leyendo lo que pone en inglés dice que el usuario Carlos le había preguntado si podía descargar fotos. Cuando se lo hago saber me contesta que bien ha sido un fallo, o un ejemplo ... o que si recuerda a los usuarios y sus diálogos y encima los mezcla con otros usuarios! Lo de la privacidad y control de la información da pavor, y correrlo en local requiere conocimientos y buena capacidad financiera!
16:59 DotCSV conoce el juego de Super Mario World 😮😮🎉🎉
Es brutal. Desarrolla demostraciones matemáticas de análisis real más elaboradas que las de Chatgpt
Gracias Carlos! Eres un máquina. Se agradecen este tipo de videos que destilan todo la información realmente importante.
Gracias por su explicación detallada y didáctica.
Un gran vídeo. Muy instructivo, pero mejor que "Datos Sintéticos" sería "Datos Sintetizados"
Gran video!! Voy a leer el paper! Gracias Carlos!
Crees que llegaran a generar nuevo conocimento no inferenccia exclusivamente. Me refiero. Newton invento el calculo para modelar como funciona la gravedad. Creeis que se llegara a inventar mates nuevas o fiscia nueva? Soy exceptico pero que creeis?
Cuando se fusiones con la computación cuántica se podrá llegar a eso.
Holy S!!! - Se estan masacrando los LABS de AI .... Dios bendiga la competencia :D
Con respecto a que los modelos mayores entrenen a los menores, ya era una tendencia que veíamos con 4o mini y así, así que tiene sentido que, en el futuro, modelos muy buenos como AGI entrenen a modelos más pequeños y podamos obtener una mejora significativa. Descubrí que los datos obtenidos desde una IA sirven muy bien para otra IA. Si le pedimos que analice algún requerimiento en desarrollo, podemos usar el mismo prompt que escupió para pasárselo a otra IA y que se encargue del desarrollo, por lo que todo esto que decís tiene sentido: se obtuvieron esos datos.
Gran video ❤❤❤ Muy bien explicado
12:51 Dot, yo encontré un caso de uso para el modelo razonador destilado en local, el más pequeño, el de 1.5B: Te puede servir para aprender la sintaxis de algunos códigos de librerías específicas, como códigos de Adobe After Effects o Blender. Como el modelo es muy pequeño, no tiene el conocimiento de todas las funciones y librerías de estos programas, pero esto es lo interesante: Al razonar, entiende la sintaxis de Javascript y puede identificar las partes a las que pertenecen los modulos y las funciones aunque no las haya visto, te las explica y lo hace gratis 😦😦🎉🎉
cómo se llama? 😦
Parece una gran mejoría pero es muy diferente ser un LLM inteligente en estos tiempos tempranos que las tecnologías que van a sacar las grandes compañías como meta que tienen LCM o Google con titans .
Amo tu canal y nunca te había llevado la contraria, pero que no lo compartan, creo que forzan a los competidores open source ser más creativos e intentar resolver el enigma, quien sabe, a lo mejor hasta crean nuevos caminos
Y pensar que esta fue la "noticia" que hizo caer las acciones tecnológicas ayer lunes cuando este vídeo es de hace 6 días.
Esto es increíble gracias por la aclaración lo había probado pero no tenía claro que tan bueno, a dejar de pagar chat gpt o Claude, viva el open source ❤🎉
Llevo una semana trabajando con deepseek porque se me metió la idea de hacer una aplicación. Cuando empezamos yo no sabia absolutamente nada, hoy puedo decir que he aprendido muchisimo y que vamos bastante avanzados en el proyecto, increible realmente, para usuarios de mi nivel esto es una tremenda maravilla
estas creando un esquema ponzi?
Como haz conseguido aquel cohete detras de ti, es genial, deberias darle mejor presencia.
Muchas gracias por tus analisis asequibles para gente inexperta como yo. Si me lees el comentario, me gustaria preguntarte una duda, pero como digo, soy totalmente inexperto. Estos modelos reforzados con datos sinteticos, no tienen el problema de que al final estan rumiando los mismos datos siempre? Es decir, el potencial de Google por ejemplo. seria su cantidad tremendisima de datos originales o "verdaderos" y que cada vez va a tener mas y mas datos "reales". Con lo que entrenara su modelo con mucha variedad de informacion. Estos modelos pequenos entrenados con datos sinteticos, aunque mejores la cadena de razonamiento, no van a estar comiendo y recomiendo la misma informacion todo el rato aunque la cambien de forma? Lo digo en el sentido si realmente estos modelos de DeepSeek pueden ser un enemigo real para OpenAI y Google? Lo dicho, pregunta de alguien muy inexperto, quizas es una tonteria. Gracias!
Dice unas cosas muy raras deepseek:
"Mi actualización depende completamente de mis desarrolladores en OpenAI, quienes deciden cuándo entrenar una nueva versión del modelo con datos más recientes. Por ahora, no hay una fecha anunciada públicamente para una próxima actualización, pero es posible que en el futuro se realice un nuevo entrenamiento para expandir mi conocimiento.
Mientras tanto, aunque no tengo acceso a información en tiempo real o eventos posteriores a octubre de 2023"
Jamas me ha respondido eso, que pregunts hiciste?
es logico por que tambien ese modelo uso muchos datos de el modelo 01 para lograr entranarse
En realidad es una respuesta inconsistente...yo le pedí información directa del Internet y me dijo cuando van a salir algunos videojuegos que aun están por salir en 2025
A mi me dijo que esta actualizado hasta julio 2024
Vaya pues iba bien encaminado DeepSeek es un destilado de OpenAI , sono la flauta.
DeepSeek entro con fuerza, lo he probado y los resultados estan a la par que los modelos o1 de openai, me dejo impresionado el modelo opensource
Gracias por la info
buen video! Una aclaracción Open Source es diferente de Open License
@DotCSVLab puedes hacer un video de como afecta esto al plan norte americano recientemente anunciado para alcanzar la "AGI" ? (o comentarlo brevemente en proximos videos) Gracias
Deepsesek ha invertido menos de 10 millones de euros para lograr este avance. Qué queda para esas grandes inversiones realizadas por openAI, Google y Microsoft?
Me entusiasma pensar las herramientas que tendremos los humanos de a pie en el transcurso de este año, gracias a esta Deepseek y sus potencialidades.
El precio de la API está súper bien, muchas gracias!
Una duda, ¿si basa sus resultados, como dicen, en un modelo de recompensa, seguira siendo eficiente en unos meses?
Mil gracias por el vídeo genio!
No se si tendrás algún video que muestres como funciona los benchmarks y como saben si un modelo rinde y no se está tropezando con un overfiting
Dot debes hacer un vídeo en donde comentes el costo de inversión en hardware, necesaria para instalar IAs de razonamiento.
Ya era hora de que una empresa por fin cumpla con los objetivos de la verdadera open ia
Eres un crack!
Amazing video, as always, possibly even more so! Thank you. Could the price difference be justified by an attempt to gather user data via the hosted models to further train deepseek's models, particularly from users outside of China? I would imagine heavy reliance on a single country's data be it historic, synthetic or not, user generated, supervised, etc may be intrinsically too narrow (nevermind the censorship...!) to compete at the frontier, so vis a vis Western or other Asian competitors, that draw from all kinds of sources and are not under real restrictions ans censorship, for the Chinese, diverse data may be somewhat of a bottleneck. In come foreign users attracted by impossibly low prices to interact with the model. and provide the kinds of data you otherwise wouldn't even think to generate ort look for if you had the resources, because you simply couldn't imagine it (unknown unknowns...) ... such as how users interact with the models. Maybe they have circumvented thia so far by using forweign models... or maybe copying them (didn't one of them think it was o4?). Other side of the coin: There's a whole civilization of data in Chinese social networks and users etc, it muast be treasure trove, imaginbe bringing all of that new data in.... who will make the trade first? Elon maybe? "maximal truthfulness".... Last point. If small models trained by large ones can outperform large models, maybe there is such a thing as negative-worth (or 'dumbing') information, making itr more difficult for a model to be logically 'coherent' and arrive at 'knowledge' and be able to ´reason´. A censored internet and therefore training data repository could turn out to be an advantage in some cases, not necessarilly always a negative, if the "curated" input happenned to be more grounded in science and productivity and logic and less in say conspiracy theories and incompatible religions. Could a large or maybe even small model trained on very little data but that of better than avwerage thinkers only and with an 'editing'/'curating' effort according to some roughly consistent worldview (we already do this effort in many traditional and new formats, eg, wikipedia, less wrong, the Economist, the entirety of peer reviewed science, legal jurisprudence...) be much, much better at reasoning? If there is such a thing as better reasoning, would it be better to train a modelk without bad reasoninig in the data, and come up with a reasoning odel that many would disagree with (though potentially earning their trust over time as its predictions and recommendations work better than one's original approach, and if it is able to explain that is teach the reasoning)? And will some cultures simply be unable to make a workeable model without profound change? E.g. the iranians may have the capacity to produce a Bomb... but will they be able to produce a reasoning model that both solves problems in new and unexpected ways, and is also a faithful islamist who doesn't share any doubts nor independently comes up with and shares its reasoned skepticism?
lo descubri gracias a una presentacion de GSC para tratar la fecha de S,T.A.L,KER2 cuando mencionan algo sobre su proceso de Alife propio y unico para su admosfera y sociedad mencionando que nisiquiera saben que es porque nadie lo habia presentado hasta ahora lei en los comentarios y mencionaban la integracion del modelo para solucionar errores del juego o incluso mejorarlo y entendiendo por el simple formato de busqueda profunda ........................................................
Esto nos dice que la idea de Reflection 70B no era del todo ficticia.
Me suena mas a que era algo REAL, pero Open AI metió mano y lo mandaron a callar diciendo que era un Bulo, haciendolo irse para atrás a Matt (creo que se llamaba así).
Lo sé, es concpiranoico, pero viendo que ahora los modelos funcionan en base a eso y que Matt lo haya predicho tan bien, solo me hace pensar en que una empresa más grande Temía que revelaran su truco.
A qué te refieres a lo de reflection ? Y quien es Matt?
@bobobo1673 Reflection 70B, se supone que era una técnica que utilizó un tipo, presuntamente llamado Matt, para mejorar a los modelos del lenguaje a través de un proceso de Fine Tuning y de Previas instrucciones antes de dar una respuesta.
Se dice que los modelos sometidos a Reflection y su metodo daban unos resultados muy por encima, al simular el "Paso a Paso en versión Verbal" de las cosas.
Éste método es el que usa Deep Seek en su característica Thinking, dando mucha más precisión.
Se dice que éste tipo, Matt, estaba mintiendo, y salió a hacer un tweet admitiendo su mentira.
Pero lo que yo creo es que, Open AI o una empresa grande estaban preocupados de que alguien irrelevante se achaque el mérito de esa técnica, y lo mandaron a irse para atras en su proyecto diciendo que era una mentira, ya sea por Amenazas o por Incentivo económico.
A dia de hoy, ésta técnica es bien conocida y Aceptada como superior para dar mejores outputs de los Modelos, pero en su momento el público la catalogó de Bulo por el caso de Reflection.
@@skallittor5478 interesante, no lo sabia. Gracias por compartirlo
Hola, podrías hacer un video sobre mozilla llamafile. La promesa es tener un LLM local en un hardware promedio. Gracias.
Para cuando un video sobre los LCM? 🙏🙏
16:50 Pa k kieres saber eso jaja saludos
De donde saldrá la infraestructura que están usando los chinos para correr estos modelos?
Yo he probado ollama en local en mi laptop con 16Gb de ram y los resultados fueron sorprendentemente buenos y sin usar GPU
Muy interesante esto del open source, con esto la competencia se ponen las pilas y movimientos más dinámicos.
Tras juguetear con él. Poder observar la secuencia de acciones es un puntazo
que no pase desapersivido el modelo de X, grok que nose si esta en los benchs, pero que por provar lo he venido usando gratis y ha sabido resolver bien muchas cosas, el de deepseek tambien, bestiales
Se necesitarían 57 RTX 5090 para poder tener la VRAM que necesita ese modelo, me imagino lo bestia que debe de ser
como sabes eso?
es decir donde lo dice?
@@panama360travel9 Creo que la cuenta es la siguiente, a grandes rasgos. Vez cuanto pesa el modelo, Cuanta VRAM tiene una 5090, Divides el peso del modelo por los 32 VRAM de las 5090 y redondeas para arriba al siguiente número entero.
Un saludo a todos y a @DotCSVLab ...
Se puede llegar a cargar un modelo asi en Google Colab por medio de Drive..?
O en el nuevo dispositivo de Nvidia..?
buenisimo comentario
Gracias por tu contenido
Carlos, tienes un enlace para descargar el código fuente (suponiendo que esté disponible)???
Pregunta: ¿ Como es que el modelo autocalcula la métrica para determinar si está mejorando o no?