🔴 LLAMA 3 - ¡META Vuelve a REVOLUCIONAR el mundo de la IA!

Поделиться
HTML-код
  • Опубликовано: 27 янв 2025

Комментарии • 281

  • @DotCSV
    @DotCSV  9 месяцев назад +27

    🚨 EJECUTA LLAMA 3 EN TU PC 👉 TUTORIAL: ruclips.net/video/39yuDBN5Kbs/видео.html

    • @gatitosmiaomaio
      @gatitosmiaomaio 9 месяцев назад +1

      gatitosssss!!!

    • @paelnever
      @paelnever 9 месяцев назад +1

      Aunque la mayoría están obsesionados con el próximo gepete lo que la tendencia evidencia claramente es que los modelos open source avanzan mas rápido que los modelos cerrados. Eso significa que no solo van a alcanzar a los modelos cerrados sino que los adelantarán. Casi nadie se da cuenta que los creadores de gepete no pueden sacar nada mucho mas potente sin que tengan que abrir toda la tecnología tal como establecen los estatutos fundacionales de su organización.

    • @MoisesXD-yx6hg
      @MoisesXD-yx6hg 9 месяцев назад +1

      @@paelnever Esperan la gallina de los huevos de oro

    • @ArielRodriguez-gr1cd
      @ArielRodriguez-gr1cd 9 месяцев назад

      En este caso Meta no esta siendo funcional a la cooptación del mercado por parte de los 3 o 4 modelos mas grandes? no funciona como una barrera para que no asciendan otras empresas?

    • @silexcorps
      @silexcorps 9 месяцев назад

      Gracias, lo acabo de instalar :3

  • @holdencaulfield3079
    @holdencaulfield3079 9 месяцев назад +227

    Meta: Si no puedo crear la antorcha más grande, pues hago de Prometeo y le doy el fuego a los humanos

    • @Arion-tt8ju
      @Arion-tt8ju 9 месяцев назад

      Prefiero ver el mundo arder, a que con controlen como títeres

    • @JorgetePanete
      @JorgetePanete 9 месяцев назад +4

      si no*

    • @holdencaulfield3079
      @holdencaulfield3079 9 месяцев назад +14

      ​@@JorgetePanete El error gramatical no impedía la correcta comprensión de la analogía, pero gracias igual. Me lo apunto.

    • @quantic027
      @quantic027 9 месяцев назад +1

      ​@@holdencaulfield3079 ¿donde te lo apuntas?

    • @rupertopro9565
      @rupertopro9565 9 месяцев назад +1

      ​@@quantic027 *dónde

  • @zzzxhrg
    @zzzxhrg 9 месяцев назад +16

    Qué locura todo esto. Hay gente literalmente dimensionando cerebros, y yo todavía luchando por entender kubernetes. Un gran momento para estar vivo, sin dudas, aunque seguramente me quede atrás. Igual es siempre un placer verte y oírte, tu entusiasmo anula la frustración de lo que no puedo entender

  • @juancarlosarias740
    @juancarlosarias740 9 месяцев назад

    ¡Gracias!

  • @terogamer345
    @terogamer345 9 месяцев назад +5

    Lo que me sorprende es que el modelo 8B seguía aprendiendo y mejorando incluso con 15T y no había señal de que estuviera convergiendo antes de que cortaran el entrenamiento. Karpathy posteo un tweet muy bueno con varios takes sobre Llama 3 y concluye que los modelos como GPT-4 estan "undertrained" en factor de x100 a x1000. Una locura.

  • @centrointernetbds
    @centrointernetbds 9 месяцев назад +41

    El necocio de Meta es que si es barato generar contenido, ese contenido el usuario lo sube a las redes sociales de Meta y eos les da a ganar dinero a ellos.

    • @FedericoPfefferkorn
      @FedericoPfefferkorn 9 месяцев назад +2

      hay gente en que la vida entera es negocio y sobre eso se basan todas sus opiniones y valores

    • @rhkuhz
      @rhkuhz 9 месяцев назад +2

      Si, exacto, según ellos el metaverso donde se requerirán todas estas tecnologías democratizadas, al igual que Google pone cables submarinos por todo el mundo o regala certificados https para que todos usen sus servicios

    • @centrointernetbds
      @centrointernetbds 9 месяцев назад +6

      @@FedericoPfefferkorn No se si lo sabias pero Meta es un negocio.

    • @arteculturayentretenimient6079
      @arteculturayentretenimient6079 9 месяцев назад

      ​@@FedericoPfefferkorntodo en el mundo lo es. Hasta la religión.

    • @celestemtz587
      @celestemtz587 9 месяцев назад +2

      Además consiguieron que la gente les haga el trabajo de hacer finetunning y gratis

  • @damianfelix7890
    @damianfelix7890 9 месяцев назад +53

    Prefiero directos rápidos a esperar mucho tiempo por un video. Gracias Carlos! Saludos

    • @MoisesXD-yx6hg
      @MoisesXD-yx6hg 9 месяцев назад +2

      @zet_eliteztradeno todos tenemos tanto tiempo libre. son joyitas estos videos

    • @joelcoll4034
      @joelcoll4034 9 месяцев назад +2

      ​@zet_eliteztradeLos videos estan bien para temas que no sean de demasiada actualidad

    • @danielmbcn
      @danielmbcn 9 месяцев назад +2

      Cierto. 👏🏻 Además, muchos escuchamos los vídeos mientras hacemos otras tareas de la casa, por lo que tampoco podremos apreciar el curro de la edición. Lo importante es que el audiocontenido sea interesante. Para ver vídeos cinematográficos o con efectos especiales, ya tenemos Netflix o HBO.

  • @eliasfarias3670
    @eliasfarias3670 9 месяцев назад +13

    Dotcsv deberias hacer un video de como armar una buena PC para IA, que GPUs usar y como calcular la velocidad de generacion de tokens segun la GPU y el modelo de IA utilizado!

    • @Alkalifax
      @Alkalifax 9 месяцев назад +1

      Es que tío cualquier GPU RX 5000 o Vega con 8GB va, ahora que si quieres algo profesional podes optar por un cluster de varias RX 7000 o mejor aun, varios aceleradores Radeon Instinc, un Ryzen 5 desde el 1600 y que no sea una APU para aprovechar las 16 lineas PCIe y un HDD grande 16TB bastaran para una buena colección de modelos, cacheas con un SSD de 1TB y listo, lo demás a tu gusto.

    • @eliasfarias3670
      @eliasfarias3670 9 месяцев назад

      @@Alkalifax si pero yo hablo de realmente algo pensado, por ejemplo te compras una RX5000 tiras un mixtral 8x7b a que velocidad? para Llama 3 70b que equipo necesito?
      lo que digo es que haga un video hablando de manera "tecnica" sobre el tema.
      Dos modelos ejemplo llama 2 7b y llama 3 8b, tienen la misma velocidad de inferencia? O cual es mas rapido? calculo que llama 7b por tener menor cantidad de parametros pero realmente lo que mas importa es la cantidad de parametros a la hora de la velocidad de inferencia? o hay otra cosa
      Aparte me decis bastara para una buena coleccion de modelos, para cuales? jajajaja
      si tenes informacion sobre el tema me gustaria conocer mas jajaja asi que si tenes pasala brooo

    • @eliasfarias3670
      @eliasfarias3670 9 месяцев назад

      @@Alkalifax por ejemplo yo tengo una rtx3050-8gb y con mixtral 8x7b se moria para hacer una inferencia jhajaja

    • @xavibal9428
      @xavibal9428 9 месяцев назад

      Me uno a la propuesta, estaría muy bien Dotcs si hicieras un video sobre GPUs y recomendaciones, ahora me surge una duda, respecto a las GPUs solo se ha de tener en cuenta la VRAM? por ejemplo veo que la RTX 3060 (12Gb) no sta mal de precio, con 2 tendríamos 24GB

    • @eliasfarias3670
      @eliasfarias3670 9 месяцев назад

      @@xavibal9428 por las dudas en LM studio o Jan que sirven para correr modelos de manera local, te dice que tan rápido o lento puede ir el modelo con tu equipo, saludos!

  • @martingarcia4618
    @martingarcia4618 9 месяцев назад +3

    Muy buen video cómo de costumbre. 33:50 para evitar confusiones, pienso que es mejor decir los números en potencias de 10

  • @themexyeti
    @themexyeti 9 месяцев назад +7

    30:32 lo dijiste bien y el chat tonto te corrigió, efectivamente son 15 Billones en español 15 x10^12 (and 15 trillion in English that's the same 15 x 10^12 ) hiciste la traducción correcta y hasta se me dibujo una sonrisa en la cara cuando lo dijiste correctamente por que fuera de las traducciones profesionales casi nadie cambia los ordenes de magnitud.

  • @javibaltierrez
    @javibaltierrez 9 месяцев назад

    Como siempre los videos son geniales, muy instructivos y siempre, siempre aprendo. Muchas gracias por compartir el conocimiento y expandir las posibilidades de todos nosotros. Saludos cordiales desde México. Abrazo enorme.

  • @yoverale
    @yoverale 9 месяцев назад +2

    20:07 tiene sentido entrenar modelos que apuntan al AGI en múltiples idiomas? No sería redundar en parámetros por cada idioma que se busque entrenar y por ende perder capacidad de acumular información diversa? Se justifica existiendo ya GPTs mucho mas sencillas que pueden encargarse en una segunda etapa de hacer una traducción del prompt y del output? 🤔

  • @georgesoros2260
    @georgesoros2260 9 месяцев назад +2

    eres el mejor canal de IA, seguirás creciendo seguro, abrazo

  • @OctavioIlebem
    @OctavioIlebem 9 месяцев назад +1

    Gracias por el compromiso.. pronta recuperación.👌🏽👊🏽

  • @alinandrei5614
    @alinandrei5614 9 месяцев назад +2

    "Una ventana de 8k para el día de hoy, para lo que se ofrece ahora es poco". Todo va tan rápido que casi se podría formular "es poco para lo que se ofrece este mes y será menos para lo que se ofrecerá el mes que viene". Miedo 😨

  • @Mr_appo
    @Mr_appo 9 месяцев назад +1

    Excelente video, como de costumbre.
    Muchas gracias por compartir tu tiempo y tus conocimientos con nosotros.

  • @tartaletas2187
    @tartaletas2187 9 месяцев назад +1

    Sigue así,explicas genial y tús videos nunca fallan, siempre son super interesantes

  • @federicoojeda3817
    @federicoojeda3817 9 месяцев назад

    Querido cuál es el link para ver el ranking?

  • @ing.ratosocial
    @ing.ratosocial 8 месяцев назад

    Gracias por compartir!

  • @Facu.F.J.
    @Facu.F.J. 9 месяцев назад +13

    Dios quiera que la diferencia entre GPT 5 y llama 3 sea la misma que entre GPT 4 y llama 1. Hazlo Sam!

  • @Zumito
    @Zumito 9 месяцев назад +2

    Siento q fue una oportunidad perdida de hacer la primer MoE con function calling, soporte de RAG y open source del mercado 😢 pero me alegra que hayan hecho llama 3 con tantos datos

  • @000m0c000
    @000m0c000 9 месяцев назад +3

    Entonces, la famosa filtración del investigador de Google del año pasado tenía razón sobre la comunidad de Open Source.

  • @fmelossi
    @fmelossi 9 месяцев назад +2

    Saludos, Fantastico!!!

  • @lordscalibur4153
    @lordscalibur4153 9 месяцев назад

    Dot me encantan tus explicaciones. Deberias hacer videos mas de estos.

  • @lagrangianomodeloestandar2724
    @lagrangianomodeloestandar2724 9 месяцев назад +10

    La cantidad de datos de entrenamiento mencionado,los 15T de tokens, son 19.3 dias de experiencia humana,unos 33,375 TB,como informacion en bruto.

    • @user-ho1cr1vi3k
      @user-ho1cr1vi3k 9 месяцев назад +4

      Que

    • @joelcoll4034
      @joelcoll4034 9 месяцев назад

      Solo 19 dias? Pues si que hay potencial por delante! Imaginate a un bebe de 19 dias asi de inteligente

  • @diegochinchilla3209
    @diegochinchilla3209 9 месяцев назад

    Saludos desde Colombia 🇨🇴🇨🇴

  • @Solucionadorpuntocl
    @Solucionadorpuntocl 9 месяцев назад +3

    3.5 dijo:
    Un kilogramo de plumas pesa más que medio kilogramo de plomo. Aquí está el razonamiento paso a paso:
    Unidades de medida: Un kilogramo de plumas y medio kilogramo de plomo están ambos medidos en kilogramos, lo que significa que tienen la misma unidad de medida.
    Cantidad: Un kilogramo de plumas es una cantidad mayor que medio kilogramo de plomo. Un kilogramo es igual a 1000 gramos, mientras que medio kilogramo es igual a 500 gramos. Por lo tanto, el kilogramo de plumas tiene el doble de masa que medio kilogramo de plomo.
    Propiedad física: La masa es una propiedad física que determina cuánta materia hay en un objeto. Un kilogramo de plumas contiene más materia que medio kilogramo de plomo, independientemente del material en sí.
    Comparación de masas: Al comparar las cantidades, un kilogramo de plumas tiene una masa mayor que medio kilogramo de plomo, por lo tanto, pesa más.
    En resumen, aunque el plomo es más denso que las plumas, un kilogramo de plumas pesa más que medio kilogramo de plomo debido a que la cantidad de materia en un kilogramo de plumas es mayor que la cantidad de materia en medio kilogramo de plomo.

  • @innerthreatcircus5651
    @innerthreatcircus5651 9 месяцев назад

    Alguien sabe si whisper para hacer subtitles de videos se puede explorar comercialmente?

  • @inteligenciafutura
    @inteligenciafutura 9 месяцев назад

    Solo me instala el de 8b como puedo instalar el de 70b ?

  • @cosmicfissure924
    @cosmicfissure924 9 месяцев назад +9

    Comprimes mas datos, y crearas un agujero negro.
    Saludos desde Arauca-Colombia, viva la Libertad Carajo!

  • @raulrosas3179
    @raulrosas3179 9 месяцев назад +1

    Carlos, Excellente info. Yo soy diseñador mecanico,, uso soft de CAD y CAM. Tengo una pregunta. Hay alguna manera en que yo le pueda sacar ventaja a estos modelos? Puedo entrenar un modelo para que trabaje con interfaces graficas? Lo he intentado a travez de generadores de codigo que me generen funciones para el diseño y funciona regular. Pero esto es a travez de tener un problema, generar codigo e implantarlo como un boton extra en el menu. Hay alguna manera mas directa ? o no me enterado de algo?

  • @kalkulusrampage
    @kalkulusrampage 7 месяцев назад

    se puede usar la version de 70b con una grafica normal?

  • @new_artiko
    @new_artiko 9 месяцев назад

    muchas gracias por la actualizacion!

  • @nippicorgi4615
    @nippicorgi4615 7 месяцев назад

    Lo he usado en su version de 7B, y es una autentica pasada. Facilmente esta a la par de Chat GPT 3.5. en temas de programacion. Genera codigo totalmente funcional sin ninguna modificacion por minima que sea, explica el codigo a detalle y aun despues de hacerle mas de 10 preguntas el contexto aun lo conserva, si le preguntas sobre alguna variable o significado de alguna funcion del codigo que respondio en la primera pregunta, lo recuerda con precision. La velocidad de ejecucion tambien es asombrosa. Con una grafica de 8 Gb de vram corre a la par de Chat GPT. Con una grafica de 16GB vuela. Literalmente aparece la respuesta al pelo. No da tiempo de ver como escribe. Simplemente asombroso el rumbo que esta tomando todo esto de los modelos open source.

  • @jossejosse952
    @jossejosse952 9 месяцев назад +5

    Yo lo estoy usando a traves de lm studio como dice en el video el de 8b, y está genialen comparación con buenos modelos como mixtral 7bx8

    • @MoisesXD-yx6hg
      @MoisesXD-yx6hg 9 месяцев назад

      Descargaste llama?

    • @jossejosse952
      @jossejosse952 9 месяцев назад

      @@MoisesXD-yx6hg lmstudio-community/Meta-Llama-3-8B-Instruct-GGUF copia ese enlace y lo pegas en el buscador de lm studio que es una lupa que tienes a la izquierda y verás que haya la derecha unos archivos de descarga (download) a ti te interesa para que te vaya rápido una etiqueta verde que pone full gpu offload possible, y eliges de las opciones que tengas el q más alto (son bits) por ejemplo meta-llama-8b-instruct-q8-0 si te deja, verás que hay que terminan en Q6_k, Q5_k... cuanto más alto los bits mejor.

    • @DarkosSoul
      @DarkosSoul 9 месяцев назад

      Qué especificaciones tiene tu computador?

    • @MoisesXD-yx6hg
      @MoisesXD-yx6hg 9 месяцев назад

      @@DarkosSoul r5 5600g 16gb de ram y gtx 1080

    • @inteligenciafutura
      @inteligenciafutura 9 месяцев назад

      Yo estoy usando ollama

  • @veronicals2986
    @veronicals2986 9 месяцев назад

    Que buen aporte. Gracias

  • @jackgaleras
    @jackgaleras 9 месяцев назад +1

    Saludos desde Colombia

  • @paulpopaul
    @paulpopaul 9 месяцев назад

    Gracias Carlos 😃👍🏻

  • @betterstayout0
    @betterstayout0 9 месяцев назад

    Gracias por el video. Genio

  • @Facu.F.J.
    @Facu.F.J. 9 месяцев назад +1

    Excelente!! explicas muy bien!! gracias!!

  • @marceloelduro
    @marceloelduro 9 месяцев назад

    Recuerdo que hace años había proyectos que pedían tu poder de computación para investigación, y básicamente cuando tú PC estaba en reposo se utilizaba, cuando lo usabad se detenía.... no se cómo funciona pero se me hacía una idea genial, yo daría gustoso el poder de mi 4080 para ayudar a la comunidad Open source, ojalá salga algún proyecto así

  • @anvz6
    @anvz6 9 месяцев назад +2

    Que curioso. Tengo ollama con llama3 en una gráfica de 6Gb y me ha contestado correctamente:
    ¿Qué pesa más, un kilo de plomo o medio kilo de plumas? Razona la respuesta
    R:
    Una pregunta clásica!
    La respuesta es: un kilo de plomo pesa más que medio kilo de plumas.
    Aquí hay una razón simple para responder así:
    Un kilo de plomo tiene una densidad alta, lo que significa que tiene una gran cantidad de masa por unidad de volumen. La densidad del plomo es aproximadamente 11.3 g/cm³.
    Por otro lado, las plumas son materiales muy ligeros y frágiles con una densidad baja. La densidad de las plumas puede variar dependiendo del tipo de plumas, pero en general, su densidad es mucho más baja que la del plomo.
    Por lo tanto, aunque medio kilo de plumas pesen 500 gramos (500 g), no pueden igualarse en peso con un kilo de plomo, que tiene una masa total de 1000 g.
    Current Model: llama3
    Generated in 43.80s

    • @ThePowerLover
      @ThePowerLover 9 месяцев назад

      Nuestra inteligencia varía.

  • @bailarmas
    @bailarmas 9 месяцев назад

    Hola genial el vídeo como siempre gracias por la información. Creo que vi por ahí unas declaraciones de Sam Altman donde dice que tuvieron que bajar la velocidad de los lanzamientos por las repercusiones sociales que tenían. Se me hace que esta gente va mucho más adelante de los que podemos imaginar! No creo que el problema sea recuperar mercado. Saludos 🖖

  • @fnagnab
    @fnagnab 9 месяцев назад +3

    26:51 Me has recordado a Luis Piedrahita

    • @alese7531
      @alese7531 9 месяцев назад

      Creo que es por el peinado

  • @EloisaBassett
    @EloisaBassett 9 месяцев назад

    Yo creo que tienes la voz rara por la fiesta de Sevilla, pero no importa la voz o el micro, siempre tus videos son los mejores!

  • @antivisible
    @antivisible 9 месяцев назад

    Es una carrera... a ver quién saca el modelo más potente. Que está muy bien. Sin embargo lo ideal es que la potencia de generación no exija una potencia equivalente de hardware, porque de ser así, estarán gestionados por las grandes empresas, y lo adecuado es que pudieran ser portados en el propio dispositivo de cada uno (PCs, móviles)...

  • @juanrozo2888
    @juanrozo2888 9 месяцев назад +1

    Deberías subir un vídeo explicando cómo poder crear un MoE a partir de LLM's open source

  • @survera
    @survera 9 месяцев назад

    Qué tarjeta gráfica estabas utilizando?

  • @haouser
    @haouser 9 месяцев назад +1

    Como idea de video, mas tecnico: explicar esos benchmarks (MMLU, GPQA, GSM-8K etc) hablando de peculiaridades de cada uno, ejemplos de que se evalua exactamente....

    • @DotCSV
      @DotCSV  9 месяцев назад

      Me gusta! Gracias por la idea :)

  • @francis_f
    @francis_f 9 месяцев назад

    Excelente video

  • @darkanubis0100
    @darkanubis0100 9 месяцев назад +1

    Ya probé el 8B y me pareció brutal el salto de calidad que hubo frente al resto de modelos, incluso comportándose mejor que la mayoria de modelos 13B (Y eso que lo probé en 4 Bits).
    Ahora estoy descargando la versión de 6 Bits y 8 Bits respectivamente para ver que tal va en versiones de mejor calidad.
    PD: Tanto el Q4 como Q6 son modelos que caben en una GPU de 8 GB sin Offloading, el Q8 o FP16 efectivamente requieren offloading.

  • @akhathos1618
    @akhathos1618 8 месяцев назад

    La desventaja de un modelo de 400 mil millones de parámetros radica precisamente en sus virtudes; precisamente por ser un modelo tan grande no puede ser utilizado en computadoras comunes a modo local, lo que desvirtúa la razón de existir de los modelos ‘open source’. Y como dices, por tratarse de un modelo para uso ‘empresarial’, las grandes empresas que lo usen terminarán tarde o temprano cobrando por su uso, colocando de nuevo a a un modelo abierto de ese tamaño como una opción más frente a los tradicionales modelos privados de pago (GPT-4, Claude). Por tanto, los enormes modelos de lenguaje no tienen sentido en un momento tecnológico donde los PC de toda la vida no pueden moverlos por sí solos.

  • @dodgewagen
    @dodgewagen 9 месяцев назад

    ¿Harás pronto un video de Agentes usando CrewAI?

  • @franpinyol8500
    @franpinyol8500 9 месяцев назад

    Qué máquina es necesaria para ejecutarlo ?

  • @eduardoromero3953
    @eduardoromero3953 9 месяцев назад

    Aws Bedrock ya tiene disponible llama 2, es posible que den modelo fundacionales como servicio en llama3 próximamente, y no tenemos que tener el computo de lado de nosotros sino del lado de la nube y con el mismo API de BedRock para llegar a los LLM

  • @nestorreveron
    @nestorreveron 9 месяцев назад

    Gracias

  • @angelbarraza3224
    @angelbarraza3224 9 месяцев назад

    38:17 "Que tonto eres!" jajaja le salió del alma a Carlos, pobre llamita.

  • @easyapp4all
    @easyapp4all 9 месяцев назад

    Si puedo ejecutar llama en mi pc... Pero como sexouede entrenar para que haga algo que yo quiera? Para esto se va a necesitar un rack de criptomonedas por todas tas tarjetas gráficas no?

  • @juansebastian6284
    @juansebastian6284 9 месяцев назад

    Existe alguna guía para la elección de GPU para correr este tipo de modelos? Me gustaría tener recomendaciones para ejecutarlos en una máquina personal pero también a nivel empresarial. Cómo sé qué GPU debo elegir?
    También me gustaría saber las limitaciones que tiene LLAMA2-3 para crear productos y poderlos vender. Tengo entendido que tienen limitaciones para que las grandes compañías no abusen de estos modelos, pero no sé dónde conseguir esa información

  • @victorvinue6330
    @victorvinue6330 9 месяцев назад +1

    Buena información y buen canal. Carlos me cae bien, aunque luego pienso que se ha llevado a la Hiperactina... suertudo

  • @javiergimenezmoya86
    @javiergimenezmoya86 9 месяцев назад +3

    La pregunta es: un modelo tan "apretado" ¿Podrá mejorar al hacer fine tunning o saltarán muchos calcetines al intentar mejorar algo? (Mejorará unas cosas pero se romperán muchas otras). Tengo curiosidad si afectará o no.

    • @DotCSV
      @DotCSV  9 месяцев назад +4

      Pues es interesante, sí. Lo bueno de que Meta haya compartido este modelo es que va a permitir también experimentar e investigar cuestiones de este tipo :)

    • @dolordepeterpan
      @dolordepeterpan 9 месяцев назад

      Mi opinión aquí es que el fine tuning, en La modalidad de [Q]LORA, no debería afectar, puesto que precisamente está para eso, para congelar los pesos originales y no tocarlos en el fine tuning, entrenando sólo los módulos nuevos que añades y sumas a la salida de las capas de attention. Yo te aconsejaría, si tienes este miedo, es que inicial ices a cero las capas de fine tuning (la salida no cambiará) y vayas evaluando checkpoints cada poco para ver cómo mejora con tu dataset sin empeorar en el previo :-)

  • @diegollorentediegol5
    @diegollorentediegol5 9 месяцев назад +10

    Saludos desde Argentina argentina

    • @INDESCRIPTIBLE.
      @INDESCRIPTIBLE. 9 месяцев назад +11

      Saludos desde Argentina argentina argentina

    • @Miki_Delay
      @Miki_Delay 9 месяцев назад +6

      Saludos desde Uruguay, Sudamérica, la tierra, vía láctea, universo 7.

    • @benjaminmontenegro3423
      @benjaminmontenegro3423 9 месяцев назад +5

      Saludos desde Chile, Chile. El mejor país de Chile

    • @culoacido420
      @culoacido420 9 месяцев назад

      Saludos desde España españa

    • @benjaminmontenegro3423
      @benjaminmontenegro3423 9 месяцев назад

      @@culoacido420 ufff ojalá poder ir a vivir a Europa Europa y salir por fin de Latinoamérica Latinoamérica

  • @javid2340
    @javid2340 9 месяцев назад

    Muy buena noticia que no habría entendido. Gracias.

  • @RicardoGarciso
    @RicardoGarciso 9 месяцев назад

    Hola Dot,
    MÉTRICA USA-ESPAÑA, no debiera haber ningún problema con la equivalencia standard
    1 Millón USA = 1 Millón ESP 10 a la 6
    1 Billón USA = 1.000 Millones ESP 10 a la 9
    1 Trillón USA = 1 Billón ESP 10 a la 12
    1 Cuatrillón USA = 1.000 Billones ESP 10 a la 15
    1 Quintillón USA = 1 Trillón ESP 10 a la 18
    Y así sucesivamente.
    Si a alguién le parece complicado que piense la diferencia que hay entre pulgada / centímetro; pie / tercio de metro, yarda / metro...

  • @LurkerCandacia
    @LurkerCandacia 9 месяцев назад

    Disculpa por ser ese tipo de internet, pero no se dice "qué tan" sino "cuán". Muchas gracias por el video!

  • @akhathos1618
    @akhathos1618 8 месяцев назад

    - Dime qué pesa más: 1 kilo de plomo o medio kilo de plumas.
    LLama 3 Instruct 8B Q_6_K: -"¡Hola Juan! Me alegra poder ayudarte con esta pregunta tan interesante.
    La respuesta es clara: 1 kilo de plomo pesa más que medio kilo de plumas.
    El peso se mide en unidades como gramos, miligramos o kilogramos, y se define como la fuerza necesaria para acelerar una masa a un cierto valor. En el caso de las plumas, aunque son ligeras y suelen estar compuestas por materiales muy ligeros como la pluma de avestruz, medio kilo de ellas pesa igual que 500 gramos.
    Por otro lado, 1 kilo de plomo es una masa mucho más densa y pesada, ya que el plomo es un metal con una densidad muy alta. La densidad del plomo es aproximadamente de 11.340 kg/m³, lo que significa que si tienes un objeto del tamaño de un bote pequeño hecho de plomo, pesaría alrededor de 1 kilo.
    Así que, en resumen, aunque medio kilo de plumas puede parecer una cantidad grande, sigue siendo mucho más liviana que 1 kilo de plomo. ¡Espero que esto te haya ayudado a entender mejor la respuesta! 😊".

  • @ErnestTapias
    @ErnestTapias 9 месяцев назад

    gracias dot!

  • @andresugalde7624
    @andresugalde7624 9 месяцев назад +1

    "Para la comunidad, tener maletitas pequeñas es la leche"
    Dot CSV 2024

  • @DanielDl-wn3hj
    @DanielDl-wn3hj 9 месяцев назад

    Me gusta la competencia que se esta formando al rededor de esto, puede llegar a impulsar la tecnologia y acelerar los avances

  • @Alazarg6k4wF2xJ3g
    @Alazarg6k4wF2xJ3g 9 месяцев назад +9

    Puede que pretender tener una buena imagen corporativa tenga algo de peso en la decisión de Meta para hacer OpenSource un modelo tan potente, pero no creo que haya sido el principal motivo. Muchas veces olvidamos que detrás de las empresas, por grandes que éstas sean, existen personas que pueden tener razones filosóficas, éticas, filantrópicas e incluso económicas para elegir este tipo de modelo abierto. Hay empresas muy grandes que consiguen pingües beneficios siendo OpenSource. Sea como sea al común de los ciudadanos nos beneficia mucho más el trabajo que hacen organizaciones como Meta, Hugging Face, Mixtral o Google (ésta última en algunos casos) que otras como OpenAI en las que la filantropía o la ética pesan más bien poco.

    • @navarroX99
      @navarroX99 9 месяцев назад +1

      Desde luego pero yo ahora mismo me puedo permitir pagar 20 euritos y usar got4 que sigue ayudándome más para hacer tareas en mi trabajo que los OpenSource, los cuales tampoco tengo hardware para ejecutar.
      Aunque bueno con 20€ al mes quizás podría tener un server para ejecutar eso en la nube 🤔
      Viva el open source

    • @MoisesXD-yx6hg
      @MoisesXD-yx6hg 9 месяцев назад

      @@navarroX99 Y si fueran sin tener que subirlo a la nube? , seria mucho mejor , en todo
      seria como el PipBoy de fallaut 3 pero 5 veces mejor , y sin data a una red , PUFFF

    • @jeremyg.
      @jeremyg. 9 месяцев назад +1

      Aquí veo un medio de beneficio mutuo, Meta gana y la comunidad gana

    • @JorgetePanete
      @JorgetePanete 9 месяцев назад

      Resumen: pingües

    • @Alazarg6k4wF2xJ3g
      @Alazarg6k4wF2xJ3g 9 месяцев назад

      @@navarroX99 un modelo grande OpenSource también podría ejecutarse en la nube y desde luego se podría pagar por él a Meta o quien sea por el soporte

  • @rhkuhz
    @rhkuhz 9 месяцев назад +2

    El problema con Llama 2 es que no daba la talla teniendo GPT-3.5 gratis, y para usarlo programáticamente tampoco, era más un experimento que algo funcional y por lo que veo sigue pasando igual, le hablas en español y lo mezcla con ingles... Por otro lado, la comparativa de la maleta me recuerda a las placas solares, se necesita muchísima energía para producirlas y dan muy poco, pero cuando llevas unos 8 años produciendo empieza a compensar, totalmente, si tenemos en cuenta toda la vida útil, merece la pena el coste de entrenamiento

    • @MoisesXD-yx6hg
      @MoisesXD-yx6hg 9 месяцев назад

      Que opinas de los coches electricos , realmente siento que nunca valdra la pena , no el tipo de tecnologia , si no su produccion tan cancer para la natulareza , sea donde sea que se este , los recursos y progreso es importante , pero a consta de destruir en mundo donde vivos , no lo veo viable ni ahorita ni en 60 años si no se hacen buenos estudios. Sin matar millones de seres vivos por cortar arboles y sin devolver nada a cambio mas que veneno jajajaaj , plasticos etc etc

  • @sandrajosecoki
    @sandrajosecoki 9 месяцев назад +9

    Para q no te desesperes con las cifras, hay una palabra en español para 1000 millones = 1 billón anglosajón= 1 millardo. Esa es la palabra: millardo
    Enhorabuena por tu canal!!!!

    • @DarioAgullo
      @DarioAgullo 9 месяцев назад +2

      Muchas gracias tío, ya no me siento tan solo en mi cruzada de los billones.

    • @sandrajosecoki
      @sandrajosecoki 9 месяцев назад

      Otra buena es la palabra EÓN.
      1 eón = 1000 millones de años
      Así se puede decir q el Big Bang fue hace 15 eones y la Tierra se formó hace 5 eones. Para no oír lo horrible: el universo se creó hace 15 mil millones de años.
      Viva la palabra EÓN!!!

  • @joelcoll4034
    @joelcoll4034 9 месяцев назад +1

    Si ocupa 8,54GB y mi gráfica tiene 8GB no lo puedo usar? O mas o menos funcionara?

    • @angellpichuuxd
      @angellpichuuxd 9 месяцев назад +1

      Creo que te permite páginar el modelo y usar RAM para ayudarlo.

  • @THETONIGHTSHOWPARODIA
    @THETONIGHTSHOWPARODIA 9 месяцев назад

    Gracias mi bro Favio lo máximo ahora editando en inkasex me dejas bien soliiiii pronto haré un videito ahí jijijk

  • @Gyro_Zeppeli14
    @Gyro_Zeppeli14 9 месяцев назад

    No sabes lo orgulloso que estoy hace un par de años muchos daban por muerto meta y yo no dejaba de acumular acciones hasta que se convirtió en mi segundo activo en portafolio

  • @mmmvvv5134
    @mmmvvv5134 9 месяцев назад

    para eso de millon' y billon', usar los termino de peta' zeta' o la cantidad de ceros a la derecha

  • @JL-sy2me
    @JL-sy2me 9 месяцев назад

    Me bajé un modelo de 70B y es muy bueno pero he notado que tengo que cortar la generación a mano porque llega un punto en el que el modelo termina y cuando es mi momento de responder me pone "assistance" y se autoresponde.

  • @juanpablobocazvargas1920
    @juanpablobocazvargas1920 9 месяцев назад

    Tengo las versiones de pago de Claude AI y de Copilot. Ahora con Gemini 3,5 y Llama 3 no hay ninguna razón para mantenerlas.

  • @thcookieh
    @thcookieh 9 месяцев назад

    Pues... A quienes realmente sabemos, eso de escoger que modelos gigantes usar ya es indiferente porque no lo usamos como fuente. Esos numeritos de pruebas son mas para inversores a quienes le venden que estan "liderando" y obtener financiamiento... En estos momentos cualquier modelo de lenguaje ya es buena en tareas linguisticas.
    Hacer finetunning no vale la pena a menos que quieras repetir un error como el de google y perder millones esperando tu modelo memorise información factual.
    Las herramientas con las que embellecen sus modelos esta mas del lado de aplicaciones que de modelos.

  • @yoverale
    @yoverale 9 месяцев назад +1

    👉🏻Billón millardo millón
    Problem solved, existe esa forma alternativa de referirse a “mil millones”
    O sino simplemente usar la palabra en inglés “billion”, porque billón no es la traducción correcta
    👉🏻Billon “bilion” millón
    ¿Y la RAE dónde está? Una vez que pueden aportar algo útil….

  • @edisuamora
    @edisuamora 9 месяцев назад +1

    Del putas toda esta nueva info que nos traes (y) saludos desde Bogotá!

  • @edwinsanchez7342
    @edwinsanchez7342 9 месяцев назад

    Muy buen trabajo divulgativo, bro, por otro lado te caeria bien hacer mas ejercicio, un abrazo.

  • @franpinyol8500
    @franpinyol8500 9 месяцев назад

    Es el numero de parámetros la mejor manera de comparar modelos ? No hay mejores benchmarks ?
    🤔
    La calidad de los tokens debería ser un factor relevante. También una comparativa de outputs a prompts standard

    • @Daniel-xh9ot
      @Daniel-xh9ot 9 месяцев назад

      El número de parámetros no es un benchmark es el tamaño del modelo, entre más grande el modelo mejores gpus se necesitan para utilizarlo. Por eso se prefieren modelos pequeños.

  • @JoeSabbat
    @JoeSabbat 9 месяцев назад

    Cuando se le pregunta lo de 1kg de plomo y 1/2 kg de plumas... pensaría que razona mejor que la media de personas... hahahaha

  • @eugeniosanchez66
    @eugeniosanchez66 9 месяцев назад

    El problema está con la calidad de los datos con los que se entrenan a las inteligencias artificiales. Actualmente se está entrenando con cantidad y no con calidad. Si se entrena con frases de gente con pocos conocimientos de física, las plumas no tendrán peso, y la IA aprenderá de fuentes poco fiables, y aprenderá tonterías. Pienso que dentro de un tiempo habrá que volver a entrenar las inteligencias con menos datos pero más fiables, y entonces serán útiles.

  • @LaurenVasquez-ee4nl
    @LaurenVasquez-ee4nl 7 месяцев назад

    Si porque cada vez que cambio mi número la tecnologías cambia

  • @JesusMorfinDiaz
    @JesusMorfinDiaz 9 месяцев назад

    Tengo los mismos audifonos y creo que nos merecemos unos nuevos Carlos

  • @Lv7-L30N
    @Lv7-L30N 9 месяцев назад

    gracias

  • @tuliomuozmagaa2197
    @tuliomuozmagaa2197 9 месяцев назад

    22:25

  • @rMada3k2k
    @rMada3k2k 9 месяцев назад

    Lo acabo de probar, en el system prompt: Piensa en inglés pero responde en español
    Respuesta 😔😔:
    Una pregunta clásica!
    La respuesta es que un kilo de plomo (1,000 gramos) pesa lo mismo que medio kilo de plumas (500 gramos).
    En otras palabras, el peso no depende del material, sino de la cantidad. Un kilogramo siempre pesará lo mismo, sea de plomo, plumas o cualquier otro material.
    ¡Espero que esto te haya ayudado a resolver la pregunta!

  • @mayikx
    @mayikx 9 месяцев назад

    Modelos del mundo es amor

  • @XavierVegasVidal
    @XavierVegasVidal 9 месяцев назад

    cuando dices 400B había que poner el meme del tipo que lanza la mesa de las cartas de magic...buff

  • @nicolaspauer582
    @nicolaspauer582 9 месяцев назад

    10 elevado a la 12 es un billon, ya cuando la metrica es grande conviene cambiar la representación a algo mas terrenal

  • @lujanes
    @lujanes 9 месяцев назад

    Cuánto pide de requerimiento de hardware el modelo grande?

    • @inteligenciafutura
      @inteligenciafutura 9 месяцев назад

      En teoría basta con tener una rtx y 16 de ram, mañana voy a probar con el más grande

  • @YoutubeAlgorithm01
    @YoutubeAlgorithm01 9 месяцев назад

    Facebook: En algo habrá que gastarse estos trillones que tengo en el banco xd

  • @freakymundo
    @freakymundo 9 месяцев назад

    40:10 Bueno, hasta que salga GPT 5 hahah

  • @ivekmartinez
    @ivekmartinez 9 месяцев назад

    Yo leí que iba tener 128K de tokens,

  • @lucifermorningstar4595
    @lucifermorningstar4595 9 месяцев назад

    70b de parametros y le llega a gpt4. Con el proximo model de 400b parametros vamos a tener un modelo open source que potencialmente puede ser hasta 5 veces mas potente que gpt4 y que nos va a enseñar unas capacidades emergentes guapas, ademas de que es muy bueno en mates y programacion ya, imagina llama3 de 400b y open source... Con empresas como groq que le pueden hacer un deployment guapo y hacerlo super rapido y accesible... La era del software liquido está a punto de llegar chavales💪🏼🔥 imaginad un mundo donde podeis tener instantaneamente el software que querais a demanda y al momento. Apretaos el cinturon

  • @gpcardano
    @gpcardano 9 месяцев назад

    El ejemplo de las plumas no es muy recomendable. Es tan típico lo de 'que pesa más? Un kilo de hierro o un kilo de plumas?' que esto estará sobre representado en los datos de entrenamiento, y por eso falla. Si cambias hierro y plumas por cualquier otra cosa los modelos responden bien

    • @DotCSV
      @DotCSV  9 месяцев назад +1

      Por eso lo uso, para ver si el modelo consigue razonar por encima del overfitting. GPT-4 no suele tener problema con esto.

  • @nicolasp7997
    @nicolasp7997 9 месяцев назад

    Cuántos parámetros?