Buen video, sin embargo creo que sufre de varias imprecisiones, lo sorprendente son los supuestos recursos limitados con los que fue entrenado, no la ejecución del mismo. Es un MoE, lo mismo que se dice desde GPT4, Mixtral, Granite 3.1 MoE. Además de no ser un modelo privado, liberaron los pesos, y no solo eso, lo hicieron bajo la licencia MIT en conjunto con un buen paper suficientemente detallado de toda la investigación. Y eso sin hablar de los modelos destilados, justamente probé el 32b en directo y funciona muy bien.
Buen video, sin embargo creo que sufre de varias imprecisiones, lo sorprendente son los supuestos recursos limitados con los que fue entrenado, no la ejecución del mismo. Es un MoE, lo mismo que se dice desde GPT4, Mixtral, Granite 3.1 MoE. Además de no ser un modelo privado, liberaron los pesos, y no solo eso, lo hicieron bajo la licencia MIT en conjunto con un buen paper suficientemente detallado de toda la investigación.
Y eso sin hablar de los modelos destilados, justamente probé el 32b en directo y funciona muy bien.
Totalmente de acuerdo!
Que sea una Mod No ha sido una impresión; lo he omitido precisamente porque es una característica en común con otros modelos, no una diferencia.
Me agrada este tipo
🫡
China llega a ser primera potencia mundial con la AGI
Veremos!
Deepseek no miente. Deepseek tomo un modelo previamente entrenado po facebook, tomo ese modelo y lo reentreno.
Yep
Hasta el momento no funciona su api de deepseek se la quieren tumbar.
Si? Hoy use la API sin problemas. Chat saturado.
puras mamadas dice este wey
no has comido?
Pues en mi ryzen 3 corre decente, claro no le tiro calculeme el problema de los 3 cuerpos
los destilados... eso está claro!