Datos de Entrenamiento, Validación y Prueba: ¿Cómo crearlos y qué objetivos tienen? Machine Learning

Поделиться
HTML-код
  • Опубликовано: 9 янв 2025

Комментарии • 37

  • @CodigoMaquina
    @CodigoMaquina  2 года назад +1

    👉 Xiperia ofrece consultoría empresarial que transforma datos en conocimiento accionable para alcanzar los objetivos de tu negocio. Conoce más en www.xiperia.com

  • @aperez691215
    @aperez691215 2 месяца назад

    Super recomendado. Excelente pedagogia

  • @ingenieriadedatoscolombia3663
    @ingenieriadedatoscolombia3663 2 года назад +2

    Gracias totales Maestro Octavio desde Colombia explicaste en 30 minutos lo que llevo semanas tratando de entender.

    • @CodigoMaquina
      @CodigoMaquina  2 года назад +1

      Excelente, me alegra mucho. Saludos!!

  • @angelbello2753
    @angelbello2753 Год назад +1

    Gracias miles , más explicado de ahi imposible , excelente tema , la facilidad que le das sin tanto rodeos es genial.... todo se entendio . Felicitaciones!!

    • @CodigoMaquina
      @CodigoMaquina  Год назад

      @angelbello2753 muchas gracias por tus palabras y un gran año 2024!!!

  • @brianchuquiruna6959
    @brianchuquiruna6959 6 месяцев назад +1

    muchas gracias por el video, era justo lo que necesitaba

    • @CodigoMaquina
      @CodigoMaquina  Месяц назад

      Muchas gracias por seguir el contenido del canal!!!

  • @abrahamsojeda
    @abrahamsojeda 3 года назад +2

    Muchas gracias por el canal amigo. Cada vídeo que termino me suma un conocimiento invaluable en mi carrera profesional.

    • @CodigoMaquina
      @CodigoMaquina  3 года назад

      Nos da muchísimo gusto que el canal aporte aunque sea con un granito de arena. Gracias por tomarte el tiempo para escribirnos :)

  • @joselorcas9705
    @joselorcas9705 Год назад +1

    Exelente canal me ha Sido super util

    • @CodigoMaquina
      @CodigoMaquina  Год назад

      Siempre es un placer leer comentarios así. Gracias!!!

  • @marbellaflores4512
    @marbellaflores4512 2 года назад +1

    gracias, me ha ayudado mucho, la información es muy clara!

    • @CodigoMaquina
      @CodigoMaquina  2 года назад

      Gracias por comentar y por seguir al canal :)

  • @gabyti6186
    @gabyti6186 2 года назад +1

    excelente profesor! muy claro todo!

  • @JozafatAlvarado
    @JozafatAlvarado 10 месяцев назад

    Son muy buenos tus videos, he aprendido bastante y se agracede bastante. Me gustaría saber si tienes algún video en el cual muestres como trabajar con estos datos de entrenamiento, prueba y validación. Llevo un tiempo aprendiendo y solo he realizado predicciones con regresión lineal junto con probabilidades. Desde ya gracias nuevamente.

  • @guillermosilva1527
    @guillermosilva1527 3 года назад +2

    Gran video crack

  • @ljfi3324
    @ljfi3324 Год назад +1

    Que buenos vídeos, me doy cuenta que "tenía" algunos conocimientos volando, pero con sus vídeos ahora entiendo más cosas, es exageradamente bueno explicando, muchas gracias por compartir su conocimiento!
    Me surgió una duda, en la explicación menciona que el conjunto de validación se usa si vamos ajustar los hiperparametros. Yo he visto que algunos solo dividen en train y test aunque ajusten hiperparametros y otros que si hacen las 3 divisiones pero solo he visto esto cuando aplican redes neuronales. Nunca he visto que dividan en train, test y validation para un algoritmo de ML, solo para redes neuronales, supongo que si se ha de poder pero no me imagino de momento en que algoritmos se podria hacer, ustedes los ha aplicado en algunos? Si es así en cuales? Gracias por todo!!!!

    • @CodigoMaquina
      @CodigoMaquina  Год назад

      @ljfi3324 muchas gracias por tus comentarios y por la pregunta. Con respecto a ésta, ciertamente en muchas ocasiones sólo se utilizan los conjuntos de entrenamiento y prueba. Digamos que es lo mínimo aceptable, aunque en realidad, independientemente de la técnica, lo ideal es utilizar los tres conjuntos. También, otra alternativa (y tal vez una mejor alternativa) para evaluar los modelos de machine learning es utilizar validación cruzada (favor de ver nuestro siguiente video ruclips.net/video/Qnth2VXopLg/видео.html). Gracias por seguir el contenido del canal :)

  • @mejia414
    @mejia414 3 года назад +1

    gracias excelente explicación

    • @CodigoMaquina
      @CodigoMaquina  3 года назад

      Muchas gracias por ver el canal e interactuar :)

    • @mejia414
      @mejia414 3 года назад

      @@CodigoMaquina me ayudo mucho, excelente

  • @dskevinperezgarcia
    @dskevinperezgarcia Год назад +1

    Excelente video. Una consulta de la división de los datos en las competiciones de Kaggle. Las competiciones brindan la base de datos de entrenamiento y de prueba. El de prueba se divide en 70% para el leaderboard público y 30% para el privado. Entonces, ¿tengo que asumir que la base de datos de entrenamiento privado es en sí el de prueba y el público es el de validación? Aún así, vi que a partir de el entrenamiento extraen una base de datos de validación.

    • @CodigoMaquina
      @CodigoMaquina  Год назад

      @kevoperezgarcia1700 no he participado en las competiciones de Kaggle. Sin embargo, por lo que comentas, efectivamente, ese 70% publico de los datos es para ti el 100% y de ahí habría que sacar tus datos de entrenamiento, prueba y validación. Una vez con tu modelo entrenado, me imagino que Kaggle utiliza el 30% privado para determinar el ganador. Mucha suerte en las competiciones!!!

  • @santiagopiedriz4696
    @santiagopiedriz4696 2 года назад +1

    👏👏 Muy buen video

    • @CodigoMaquina
      @CodigoMaquina  2 года назад

      Muchas gracias por seguir el contenido del canal!

  • @felipela2227
    @felipela2227 Год назад +1

    Entendí la analogía del estudiante con Train y Test pero no con la de Validación. En todo caso yo diría que la Validación vendría a ser una simulación del examen que te ayuda a ajustarte.

    • @CodigoMaquina
      @CodigoMaquina  Год назад +1

      @felipela2227 gracias por seguir el contenido del canal. Más allá de las analogías, lo más importante del conjunto de validación (que nos debemos llevar) es que se utiliza para definir los hiper-parámetros. Feliz año 2024!!!

  • @alf4879
    @alf4879 9 месяцев назад

    Cuando ya tengo el modelo entrenado y deseo que me prediga nuevos valores de una nueva base de datos se puede desde pyton o se requiere despliegue?

  • @grb300788
    @grb300788 10 месяцев назад

    Estoy haciendo un ejercicio donde meto dos csv uno para train y otro para test pero entonces este ultimo solo se utilozaria para hacer las pruebas? Es que no entiendo muy bien algunos conceptos estoy echa bolas😅

  • @raquelevelin6844
    @raquelevelin6844 2 года назад +1

    El dataset tiene que tener la misma cantidad de cada clase a predecir ? en este caso es necesario tener 50 casos de cardíacos y 50 que no?

    • @CodigoMaquina
      @CodigoMaquina  2 года назад +1

      Muchas gracias por interactuar en el canal. Con respecto a tu pregunta, idealmente deberíamos tener una proporción similar de datos asociados a cada clase en cada uno de los conjuntos de entrenamiento, prueba y validación. Para esto, normalmente las diferentes librerías de machine learning (que crean automáticamente esos conjuntos) intentan alcanzar ese balance utilizando muestreo aleatorio en sus métodos. Sin embargo, en algunas ocasiones debido al simple contexto de los datos, los datos tienen proporcionalmente una menor cantidad de datos asociados a algunas clases y para eso se realizan procesos especiales de balanceo de clases. Si estos temas son de tu interés, te recomiendo echarle un vistazo a un video que ya tenemos en este canal sobre cómo lidiar con clases desbalanceadas ruclips.net/video/2FbugqoBz94/видео.html

  • @thegrayfox666
    @thegrayfox666 Год назад +1

    ¿Qué pasa si nuestro data set incluye fechas? como por ejemplo fechas de ventas ¿Cómo podemos separar nuestros datos sin que sea aleatorio pero mantener la proporción de 80% para los datos train y 20% para los datos test?

    • @CodigoMaquina
      @CodigoMaquina  Год назад +1

      Gracias por la pregunta y por interactuar en el canal. En el caso general, cuestiones temporales como fechas y/o horas se trabajan como series de tiempo y tienen un tratamiento diferente para evitar alimentar el modelo con datos del futuro. De hecho, sklearn y otras librerías tienen métodos especiales para hacer la separación de los datos para series de tiempo. Aquí va un vínculo con un poco más de información scikit-learn.org/stable/modules/generated/sklearn.model_selection.TimeSeriesSplit.html