Algoritmos Machine Learning: Arboles Decision para Data Science

Поделиться
HTML-код
  • Опубликовано: 4 ноя 2024
  • НаукаНаука

Комментарии • 52

  • @julianchaves412
    @julianchaves412 3 года назад +18

    Si tuviera que ponerle titulo a este video le pondria: "Un puto amo explica como los dioses los Arboles de Decision para Data
    Science"

  • @_Vincent_Vega_
    @_Vincent_Vega_ 21 день назад +1

    excelente explicación ! increíble! no lograba entenderlo antes de ver el video , Muchísimas gracias!

  • @ppascasl
    @ppascasl 2 года назад +5

    Una explicación muy completa, tan importante como usar el código es entender lo que significa. Muy didáctico y claro.

  • @GER_eM_
    @GER_eM_ Год назад +2

    gracias por la explicación, saludos desde Viena

  • @gastonsegovia8390
    @gastonsegovia8390 2 года назад +2

    EXCELENTE, GRACIAS POR COMPARTIR ESTOS CONOCIMIENTOS.

  • @joevitrano
    @joevitrano 6 месяцев назад +1

    Uno de las mejores explicacione que encontré , lo entendí de una ! suscripto

  • @ejgra
    @ejgra 3 года назад +2

    Excelente video, excelente moderador.No entiendo porque desde mayo no continuo con los otros algoritmos, si es muy bueno explicando. Es necesario que personas así, contribuyan aclarar ideas y a fomentar el aprendizaje del ML.

    • @DataScienceForBusiness
      @DataScienceForBusiness  3 года назад +4

      Gracias Evelyn, me alegro de que te haya gustado!. El motivo es que hacer los vídeos lleva mucho tiempo, y no es mi principal ocupación :-). Ahora esto con la serie de big data, pero volveremos con la serie de algoritmos. suscríbete y activa la campana para que youtube te avise cuando haya novedades!

  • @JoseNicanorFrancoRiquelme
    @JoseNicanorFrancoRiquelme 4 года назад +2

    Muy buena la explicación de este algoritmo. Seguiré esperando mas vídeos tuyos Isaac, para entender mejor otros algoritmos de los tantos que pululan por ahí. Saludos!!!

  • @francysbermudezvelasquez2890
    @francysbermudezvelasquez2890 4 года назад +1

    Agradecida por estos videos me ayudan a comprender el aspecto técnico y el negocio.

  • @Ivan2000P
    @Ivan2000P 3 года назад +1

    Muy clara explicación, gracias por compartir, revisaré el material del desafío. Nuevamente Gracias. 👍👍👍

  • @jlceballosf
    @jlceballosf 4 года назад +2

    Saludos Isaac. Agradecido por tus videos que muestran, además del aspecto técnico en sí, el enfoque del análisis del negocio. lo cual resulta muy importante entender y manejarlo. Espero por otros videos como éste, donde ofrezcas una orientación sobre el uso de los distintos algoritmos de ML.
    Muchas gracias por tu labor, tus recursos son de mucha utilidad!!!

  • @ernestodiaz3372
    @ernestodiaz3372 4 года назад +1

    Muy buena explicación, muy didáctico, explica aspectos que otros no. Gracias.

  • @Gamma3
    @Gamma3 3 года назад +2

    Excelente explicación. Gracias amigo un abrazo

  • @ruthlara645
    @ruthlara645 3 года назад +1

    se le agradece..

  • @bilal_laouah
    @bilal_laouah 4 года назад +1

    Buenísimo!! Punto medio entre teoría y práctica!

  • @manuelgonzalez6500
    @manuelgonzalez6500 4 года назад +7

    Buenos días,
    Antes de nada, agradecerte todo tu trabajo y tu contenido didáctico, es de gran ayuda.
    Actualmente intento implementar un modelo en una base de datos donde todo los datos son cualitativos, alguno de ellos categóricos, y mi quiero hacer predicciones sobre una variable de salidas Si y No.
    Como soy nuevo en esto y no tengo variables numéricas me cuesta un poco saber cómo analizar y modelizar este tipo de datos. ¿Me podría dar algún consejo sobre cómo tratar los datos y que modelos se ajustan más al problema?.
    De nuevo, muchísimas gracias por su labor, saludos.

    • @DataScienceForBusiness
      @DataScienceForBusiness  4 года назад +2

      Hola, si quieres apúntate a www.desafioml.com. Es un minicurso gratis donde se hace justo esto, crear un modelo predictivo para una variable dicotómica. Los modelos que podrías usar son por ejemplo regresión logística, árboles de clasificación, random foreste en formato clasificación, etc.

  • @zrinio6073
    @zrinio6073 4 года назад +2

    Buenas tardes, me encantan estos vídeos y me están sirviendo como ayuda para iniciarme, soy ingeniero en organización industrial recién titulado y me gustaría ampliar mis conocimientos en este campo, y estoy mirando ciertos máster aunque no se cual realizar, estoy entre el de la ucm, upm y urjc
    Gracias

  • @joansondelgado3055
    @joansondelgado3055 3 года назад +1

    Eres un crack maestro gracias por el aporte, sigue haciendo videos como este

  •  4 года назад +1

    Excelente aporte Isaac! Todos tus videos me han colaborado mucho a comprender y dar mis primeros pasos en R; hice el reto de Machine Learning y me gustó, evidentemente quisiera realizar el curso pero no dispongo a la fecha de los recursos, por ende, mientras que me recomendaciones me harías para realizar un pequeño proyecto (con sus fases) para ir practicando; digamos que ya domino un poco las librerías y sintaxis, pero me ha costado llevar eso a la práctica.... ta ta ta tannnn...el gran rato! Saludos y éxitos para DS4B

    • @DataScienceForBusiness
      @DataScienceForBusiness  4 года назад

      Hola, justo para ese objetivo de hacer un pequeño proyecto pero en todas sus fases tenemos otro curso, más económico, en el que hacemos eso, y está pensado precisamente para que las personas que tienen ciertas experiencias, pero inconexas, lleguen a ese punto de "ah, ahora ya entiendo cómo encaja todo en un proyecto de data science". Te dejo el link por si quieres echarle un ojo: www.datascience4business.com/ds4b-virtualcamp-info
      saludos!

  • @karinaramos2494
    @karinaramos2494 3 года назад +1

    Muchas gracias Issac, excelente explicación. De donde puedo sacar este DataSet que usas como ejemplo.

    • @DataScienceForBusiness
      @DataScienceForBusiness  3 года назад

      es un dataset público, busca en google "house prices datasset" y lo encontrarás rápido

  • @JuanSosa-gd8uy
    @JuanSosa-gd8uy Год назад +2

    videeeeaaso

  • @rostaff6463
    @rostaff6463 3 года назад +1

    Excelente explicación! Gracias :)

  • @guillermoemz
    @guillermoemz 4 года назад +1

    Isaac, ante nada felicitarte por tu canal, se nota que tienes experiencia en Machine Learning y Data Science, en base a tu experiencia, cómo abordarías el juego de ajedrez con Machine Learning ? Saludos,

  • @guillermoemz
    @guillermoemz 4 года назад +1

    Isaac, dentro de lo "CATEGÓRICO" de ML Predictivo mencionaste a regresión logística y familia de árboles (árboles de clasificación, random forest, GBM y XGBoost), haciendo referencia a Pareto (20 - 80), Support Vector Machine (SVM) y Naive Bayes, estos dos últimos métodos de son mejores que los anteriores, por qué no lo tomaste en consideración. Saludos,

    • @guillermoemz
      @guillermoemz 4 года назад

      Hola ?

    • @DataScienceForBusiness
      @DataScienceForBusiness  4 года назад +1

      Hola Guillermo, efectivamente también son otros métodos disponibles y válidos, aunque no coincido en que mejores. SVM suele perder en capacidad predictiva contra los métodos de boosting, y naive bayes es un algoritmo que a mi me gusta mucho para ciertos casos como cuando hay pocos datos, por tanto tiene su uso, pero a nivel general creo que está bastante superado. saludos!

    • @guillermoemz
      @guillermoemz 4 года назад

      @@DataScienceForBusiness Isaac, ayer, después de ver el 3er vídeo de ML Predictivo, sin lugar a dudas Random Forest es mejor que SVM y Naive Bayes, es evidente tu experiencia en el área.

  • @lizgarciac
    @lizgarciac 3 года назад +1

    Estimado, muy buena explicación, tengo una pregunta, como interpretaría el p-valor, que indica en cada rama del arbol y cual es el nivel de confianza?

    • @DataScienceForBusiness
      @DataScienceForBusiness  3 года назад +2

      eso daría para otro vídeo entero :-). pero simplificando mucho el NC lo pones tú, lo más normal es trabajar al 95% o 99%. Con eso se calcula alpha, que es 1-NC, por ej para NC = 95% el alpha es 0.05. Por último si el pvalor es igual o menor que ese alpha significa que la diferencia encontrada SI es estadísticamente significativa, por ej si pvalor = 0.03 entonces sí existe diferencia significativa.

  • @EducacionDigitalHoy
    @EducacionDigitalHoy 4 года назад +1

    buenas noches, tengo una duda para la data a usar en este tipo de arboles de clasificacion, en este caso las variables independientes tienen que cumplir alguna condicion, por ejemplo tienen que ser variables continuas, o con que sean factores en rstudio basta?

    • @DataScienceForBusiness
      @DataScienceForBusiness  4 года назад +1

      los árboles son de los algoritmos que exigen menor preproceso de las VI. Pueden gestionar tanto factores como numéricas y son robustos también a outliers

  • @martharey5843
    @martharey5843 3 года назад +1

    Isaac, una pregunta no tengo experiencia en ninguno de las herramientas para crear algoritmos de decisión, que plataforma me recomiendas para utilizar en mi proyecto de tésis, quedo atenta gracias me inscribí en el curso de la página de desafioml.com

    • @DataScienceForBusiness
      @DataScienceForBusiness  3 года назад +1

      depende de el trabajo que vayas a necesitar hacer en la tesis claro. Si vas a necesitar analítica avanzada sí te recomiendo aprender R. Si no quizá no valga la pena el esfuerzo. También puedes usar interfaces gráficas de R, como R, que aunque es menos potente permite hacer muchas cosas sin tener que programar.

  • @hect54
    @hect54 4 года назад +1

    Sería súper útil un video de K-Means!

  • @neurondeep
    @neurondeep 4 года назад +1

    Hola, podrías hablar de cómo entrar como becario o trabajar relacionado a esto? Estoy acabado ingeniería informática y me gustaría dedicarme al mundo de la IA y los datos y no encuentro nada para gente sin experiencia. Soy de Barcelona

    • @DataScienceForBusiness
      @DataScienceForBusiness  4 года назад +1

      Con la titulación de ingeniero informático creo que no vas a tener problema. Cuando acabes haz alguna formación adicional en data science para complementar con la parte de los algoritmos y lenguajes como R o Python, y como dices empieza a buscar trabajo de becario, que es como se empieza.

    • @neurondeep
      @neurondeep 4 года назад

      DataScience ForBusiness muchas gracias! Es que suelo encontrar muy poco y me encanta este mundo. Igual si veo que no entro en ningún lado, probare el máster

  • @ramiroproietto6747
    @ramiroproietto6747 3 года назад +1

    Hola gracias por el video, como se haria para ajustar el árbol con el objetivo de tener una predicción cerca de 100% en uno de los targets, aunque en el otro tenga muy pobre prediccion. Gracias

    • @DataScienceForBusiness
      @DataScienceForBusiness  3 года назад +1

      Hola, es un tema más avanzado. Hay 2 métricas que se llaman precision & recall. Puedes ir cambiando los puntos de corte hasta maximizar la precision de los unos. El coste que vas a tener no es tanto a costa de los ceros si no a costa de cometer más falsos positivos.
      En los cursos de DS4B hay un módulo específico para este tema porque como te digo es un tema avanzado pero al que se le puede sacar bastante partido desde negocio y no mucha gente lo conoce o lo usa.
      También puedes conseguir algo similar a lo que quieres sobreponderando el peso de los unos frente a los ceros, para que sus errores pesen más y entonces el algoritmo se centre más en ellos.

    • @ramiroproietto6747
      @ramiroproietto6747 3 года назад

      @@DataScienceForBusiness Gracias por tu tiempo y la aclaración.

  • @luisvalencia7459
    @luisvalencia7459 4 года назад +1

    Hola primero agradecerte por todo el contenido que esta ofreciendo en realidad se valora mucho ya estoy inscrito en el desafió y voy en el Dia 2, pero tengo una duda y quizás no tenga que ver con el video sin embargo creo que si actualmente soy estudiante de economía por lo que tengo conocimiento de econometria y estoy realizando un modelo que me arroje la probabilidad de desempleo de un individuo con X característica la cosa es que estoy usando un modelo de regresión logística en el que tengo desbalance, mi pregusta es se debe aplicar una técnica para balancear solo mi variable dependiente o también se debe de aplicar para balancear cada una de las categorías de mis variables independiente es algo que he estado buscando pero no se especifica del todo y claro dicho proceso supondrá una gran cantidad de trabajo por que son muchas variables independientes cada una con varias categorías
    Te agradezco la respuesta que me puedas dar y de nuevo muchas gracias por el contenido que nos facilitas a los autodidactas

    • @DataScienceForBusiness
      @DataScienceForBusiness  4 года назад

      Hola, sólo debes balancear sobre la variable dependiente. Aunque recuerda que balancear al final es quitar o poner (duplicar) registros, así que también podrás tener un impacto indirecto sobre la distribución del resto de variables. Pero sólo debes "cuadrar" por decirlo así, la dependiente. De todas formas la regresión logística en concreto no se ve afectada por el desbalanceo, así que podrías seguir sin balancear, incluso sería más recomendable para no modificar artificialmente la estructura de los datos.

    • @luisvalencia7459
      @luisvalencia7459 4 года назад

      @@DataScienceForBusiness entiendo muchas gracias por aclarar mi duda casi existencial

  • @jladronlgr7835
    @jladronlgr7835 4 года назад +1

    Contenido de mucha calidad y youtube no le da visibilidad.

  • @erickfabricioarevalomirand3538
    @erickfabricioarevalomirand3538 4 года назад +1

    Hola, podria facilitar el archivo csv se lo agradeceria mucho

  • @luisecalderonlopez8875
    @luisecalderonlopez8875 29 дней назад

    Un comentario. Los árboles de decisión no predicen fuera del rango de datos que entrenaron el modelo. En ese sentido no tiene capacidad de predecir valores futuros que no se hayan dado antes.