Excelente video, excelente moderador.No entiendo porque desde mayo no continuo con los otros algoritmos, si es muy bueno explicando. Es necesario que personas así, contribuyan aclarar ideas y a fomentar el aprendizaje del ML.
Gracias Evelyn, me alegro de que te haya gustado!. El motivo es que hacer los vídeos lleva mucho tiempo, y no es mi principal ocupación :-). Ahora esto con la serie de big data, pero volveremos con la serie de algoritmos. suscríbete y activa la campana para que youtube te avise cuando haya novedades!
Muy buena la explicación de este algoritmo. Seguiré esperando mas vídeos tuyos Isaac, para entender mejor otros algoritmos de los tantos que pululan por ahí. Saludos!!!
Saludos Isaac. Agradecido por tus videos que muestran, además del aspecto técnico en sí, el enfoque del análisis del negocio. lo cual resulta muy importante entender y manejarlo. Espero por otros videos como éste, donde ofrezcas una orientación sobre el uso de los distintos algoritmos de ML. Muchas gracias por tu labor, tus recursos son de mucha utilidad!!!
Buenos días, Antes de nada, agradecerte todo tu trabajo y tu contenido didáctico, es de gran ayuda. Actualmente intento implementar un modelo en una base de datos donde todo los datos son cualitativos, alguno de ellos categóricos, y mi quiero hacer predicciones sobre una variable de salidas Si y No. Como soy nuevo en esto y no tengo variables numéricas me cuesta un poco saber cómo analizar y modelizar este tipo de datos. ¿Me podría dar algún consejo sobre cómo tratar los datos y que modelos se ajustan más al problema?. De nuevo, muchísimas gracias por su labor, saludos.
Hola, si quieres apúntate a www.desafioml.com. Es un minicurso gratis donde se hace justo esto, crear un modelo predictivo para una variable dicotómica. Los modelos que podrías usar son por ejemplo regresión logística, árboles de clasificación, random foreste en formato clasificación, etc.
Buenas tardes, me encantan estos vídeos y me están sirviendo como ayuda para iniciarme, soy ingeniero en organización industrial recién titulado y me gustaría ampliar mis conocimientos en este campo, y estoy mirando ciertos máster aunque no se cual realizar, estoy entre el de la ucm, upm y urjc Gracias
Eres un crack maestro gracias por el aporte, sigue haciendo videos como este
4 года назад+1
Excelente aporte Isaac! Todos tus videos me han colaborado mucho a comprender y dar mis primeros pasos en R; hice el reto de Machine Learning y me gustó, evidentemente quisiera realizar el curso pero no dispongo a la fecha de los recursos, por ende, mientras que me recomendaciones me harías para realizar un pequeño proyecto (con sus fases) para ir practicando; digamos que ya domino un poco las librerías y sintaxis, pero me ha costado llevar eso a la práctica.... ta ta ta tannnn...el gran rato! Saludos y éxitos para DS4B
Hola, justo para ese objetivo de hacer un pequeño proyecto pero en todas sus fases tenemos otro curso, más económico, en el que hacemos eso, y está pensado precisamente para que las personas que tienen ciertas experiencias, pero inconexas, lleguen a ese punto de "ah, ahora ya entiendo cómo encaja todo en un proyecto de data science". Te dejo el link por si quieres echarle un ojo: www.datascience4business.com/ds4b-virtualcamp-info saludos!
Isaac, dentro de lo "CATEGÓRICO" de ML Predictivo mencionaste a regresión logística y familia de árboles (árboles de clasificación, random forest, GBM y XGBoost), haciendo referencia a Pareto (20 - 80), Support Vector Machine (SVM) y Naive Bayes, estos dos últimos métodos de son mejores que los anteriores, por qué no lo tomaste en consideración. Saludos,
Hola Guillermo, efectivamente también son otros métodos disponibles y válidos, aunque no coincido en que mejores. SVM suele perder en capacidad predictiva contra los métodos de boosting, y naive bayes es un algoritmo que a mi me gusta mucho para ciertos casos como cuando hay pocos datos, por tanto tiene su uso, pero a nivel general creo que está bastante superado. saludos!
@@DataScienceForBusiness Isaac, ayer, después de ver el 3er vídeo de ML Predictivo, sin lugar a dudas Random Forest es mejor que SVM y Naive Bayes, es evidente tu experiencia en el área.
Isaac, ante nada felicitarte por tu canal, se nota que tienes experiencia en Machine Learning y Data Science, en base a tu experiencia, cómo abordarías el juego de ajedrez con Machine Learning ? Saludos,
buenas noches, tengo una duda para la data a usar en este tipo de arboles de clasificacion, en este caso las variables independientes tienen que cumplir alguna condicion, por ejemplo tienen que ser variables continuas, o con que sean factores en rstudio basta?
los árboles son de los algoritmos que exigen menor preproceso de las VI. Pueden gestionar tanto factores como numéricas y son robustos también a outliers
eso daría para otro vídeo entero :-). pero simplificando mucho el NC lo pones tú, lo más normal es trabajar al 95% o 99%. Con eso se calcula alpha, que es 1-NC, por ej para NC = 95% el alpha es 0.05. Por último si el pvalor es igual o menor que ese alpha significa que la diferencia encontrada SI es estadísticamente significativa, por ej si pvalor = 0.03 entonces sí existe diferencia significativa.
Hola gracias por el video, como se haria para ajustar el árbol con el objetivo de tener una predicción cerca de 100% en uno de los targets, aunque en el otro tenga muy pobre prediccion. Gracias
Hola, es un tema más avanzado. Hay 2 métricas que se llaman precision & recall. Puedes ir cambiando los puntos de corte hasta maximizar la precision de los unos. El coste que vas a tener no es tanto a costa de los ceros si no a costa de cometer más falsos positivos. En los cursos de DS4B hay un módulo específico para este tema porque como te digo es un tema avanzado pero al que se le puede sacar bastante partido desde negocio y no mucha gente lo conoce o lo usa. También puedes conseguir algo similar a lo que quieres sobreponderando el peso de los unos frente a los ceros, para que sus errores pesen más y entonces el algoritmo se centre más en ellos.
Isaac, una pregunta no tengo experiencia en ninguno de las herramientas para crear algoritmos de decisión, que plataforma me recomiendas para utilizar en mi proyecto de tésis, quedo atenta gracias me inscribí en el curso de la página de desafioml.com
depende de el trabajo que vayas a necesitar hacer en la tesis claro. Si vas a necesitar analítica avanzada sí te recomiendo aprender R. Si no quizá no valga la pena el esfuerzo. También puedes usar interfaces gráficas de R, como R, que aunque es menos potente permite hacer muchas cosas sin tener que programar.
Hola, podrías hablar de cómo entrar como becario o trabajar relacionado a esto? Estoy acabado ingeniería informática y me gustaría dedicarme al mundo de la IA y los datos y no encuentro nada para gente sin experiencia. Soy de Barcelona
Con la titulación de ingeniero informático creo que no vas a tener problema. Cuando acabes haz alguna formación adicional en data science para complementar con la parte de los algoritmos y lenguajes como R o Python, y como dices empieza a buscar trabajo de becario, que es como se empieza.
DataScience ForBusiness muchas gracias! Es que suelo encontrar muy poco y me encanta este mundo. Igual si veo que no entro en ningún lado, probare el máster
Hola primero agradecerte por todo el contenido que esta ofreciendo en realidad se valora mucho ya estoy inscrito en el desafió y voy en el Dia 2, pero tengo una duda y quizás no tenga que ver con el video sin embargo creo que si actualmente soy estudiante de economía por lo que tengo conocimiento de econometria y estoy realizando un modelo que me arroje la probabilidad de desempleo de un individuo con X característica la cosa es que estoy usando un modelo de regresión logística en el que tengo desbalance, mi pregusta es se debe aplicar una técnica para balancear solo mi variable dependiente o también se debe de aplicar para balancear cada una de las categorías de mis variables independiente es algo que he estado buscando pero no se especifica del todo y claro dicho proceso supondrá una gran cantidad de trabajo por que son muchas variables independientes cada una con varias categorías Te agradezco la respuesta que me puedas dar y de nuevo muchas gracias por el contenido que nos facilitas a los autodidactas
Hola, sólo debes balancear sobre la variable dependiente. Aunque recuerda que balancear al final es quitar o poner (duplicar) registros, así que también podrás tener un impacto indirecto sobre la distribución del resto de variables. Pero sólo debes "cuadrar" por decirlo así, la dependiente. De todas formas la regresión logística en concreto no se ve afectada por el desbalanceo, así que podrías seguir sin balancear, incluso sería más recomendable para no modificar artificialmente la estructura de los datos.
Un comentario. Los árboles de decisión no predicen fuera del rango de datos que entrenaron el modelo. En ese sentido no tiene capacidad de predecir valores futuros que no se hayan dado antes.
Si tuviera que ponerle titulo a este video le pondria: "Un puto amo explica como los dioses los Arboles de Decision para Data
Science"
Una explicación muy completa, tan importante como usar el código es entender lo que significa. Muy didáctico y claro.
excelente explicación ! increíble! no lograba entenderlo antes de ver el video , Muchísimas gracias!
gracias por la explicación, saludos desde Viena
Excelente video, excelente moderador.No entiendo porque desde mayo no continuo con los otros algoritmos, si es muy bueno explicando. Es necesario que personas así, contribuyan aclarar ideas y a fomentar el aprendizaje del ML.
Gracias Evelyn, me alegro de que te haya gustado!. El motivo es que hacer los vídeos lleva mucho tiempo, y no es mi principal ocupación :-). Ahora esto con la serie de big data, pero volveremos con la serie de algoritmos. suscríbete y activa la campana para que youtube te avise cuando haya novedades!
EXCELENTE, GRACIAS POR COMPARTIR ESTOS CONOCIMIENTOS.
Uno de las mejores explicacione que encontré , lo entendí de una ! suscripto
Agradecida por estos videos me ayudan a comprender el aspecto técnico y el negocio.
Muy buena explicación, muy didáctico, explica aspectos que otros no. Gracias.
Muy buena la explicación de este algoritmo. Seguiré esperando mas vídeos tuyos Isaac, para entender mejor otros algoritmos de los tantos que pululan por ahí. Saludos!!!
Muy clara explicación, gracias por compartir, revisaré el material del desafío. Nuevamente Gracias. 👍👍👍
Buenísimo!! Punto medio entre teoría y práctica!
Saludos Isaac. Agradecido por tus videos que muestran, además del aspecto técnico en sí, el enfoque del análisis del negocio. lo cual resulta muy importante entender y manejarlo. Espero por otros videos como éste, donde ofrezcas una orientación sobre el uso de los distintos algoritmos de ML.
Muchas gracias por tu labor, tus recursos son de mucha utilidad!!!
Excelente explicación. Gracias amigo un abrazo
Buenos días,
Antes de nada, agradecerte todo tu trabajo y tu contenido didáctico, es de gran ayuda.
Actualmente intento implementar un modelo en una base de datos donde todo los datos son cualitativos, alguno de ellos categóricos, y mi quiero hacer predicciones sobre una variable de salidas Si y No.
Como soy nuevo en esto y no tengo variables numéricas me cuesta un poco saber cómo analizar y modelizar este tipo de datos. ¿Me podría dar algún consejo sobre cómo tratar los datos y que modelos se ajustan más al problema?.
De nuevo, muchísimas gracias por su labor, saludos.
Hola, si quieres apúntate a www.desafioml.com. Es un minicurso gratis donde se hace justo esto, crear un modelo predictivo para una variable dicotómica. Los modelos que podrías usar son por ejemplo regresión logística, árboles de clasificación, random foreste en formato clasificación, etc.
Buenas tardes, me encantan estos vídeos y me están sirviendo como ayuda para iniciarme, soy ingeniero en organización industrial recién titulado y me gustaría ampliar mis conocimientos en este campo, y estoy mirando ciertos máster aunque no se cual realizar, estoy entre el de la ucm, upm y urjc
Gracias
Eres un crack maestro gracias por el aporte, sigue haciendo videos como este
Excelente aporte Isaac! Todos tus videos me han colaborado mucho a comprender y dar mis primeros pasos en R; hice el reto de Machine Learning y me gustó, evidentemente quisiera realizar el curso pero no dispongo a la fecha de los recursos, por ende, mientras que me recomendaciones me harías para realizar un pequeño proyecto (con sus fases) para ir practicando; digamos que ya domino un poco las librerías y sintaxis, pero me ha costado llevar eso a la práctica.... ta ta ta tannnn...el gran rato! Saludos y éxitos para DS4B
Hola, justo para ese objetivo de hacer un pequeño proyecto pero en todas sus fases tenemos otro curso, más económico, en el que hacemos eso, y está pensado precisamente para que las personas que tienen ciertas experiencias, pero inconexas, lleguen a ese punto de "ah, ahora ya entiendo cómo encaja todo en un proyecto de data science". Te dejo el link por si quieres echarle un ojo: www.datascience4business.com/ds4b-virtualcamp-info
saludos!
Excelente explicación! Gracias :)
Isaac, dentro de lo "CATEGÓRICO" de ML Predictivo mencionaste a regresión logística y familia de árboles (árboles de clasificación, random forest, GBM y XGBoost), haciendo referencia a Pareto (20 - 80), Support Vector Machine (SVM) y Naive Bayes, estos dos últimos métodos de son mejores que los anteriores, por qué no lo tomaste en consideración. Saludos,
Hola ?
Hola Guillermo, efectivamente también son otros métodos disponibles y válidos, aunque no coincido en que mejores. SVM suele perder en capacidad predictiva contra los métodos de boosting, y naive bayes es un algoritmo que a mi me gusta mucho para ciertos casos como cuando hay pocos datos, por tanto tiene su uso, pero a nivel general creo que está bastante superado. saludos!
@@DataScienceForBusiness Isaac, ayer, después de ver el 3er vídeo de ML Predictivo, sin lugar a dudas Random Forest es mejor que SVM y Naive Bayes, es evidente tu experiencia en el área.
Muchas gracias Issac, excelente explicación. De donde puedo sacar este DataSet que usas como ejemplo.
es un dataset público, busca en google "house prices datasset" y lo encontrarás rápido
Isaac, ante nada felicitarte por tu canal, se nota que tienes experiencia en Machine Learning y Data Science, en base a tu experiencia, cómo abordarías el juego de ajedrez con Machine Learning ? Saludos,
investiga una cosa que se llama reinforcement learning
buenas noches, tengo una duda para la data a usar en este tipo de arboles de clasificacion, en este caso las variables independientes tienen que cumplir alguna condicion, por ejemplo tienen que ser variables continuas, o con que sean factores en rstudio basta?
los árboles son de los algoritmos que exigen menor preproceso de las VI. Pueden gestionar tanto factores como numéricas y son robustos también a outliers
Estimado, muy buena explicación, tengo una pregunta, como interpretaría el p-valor, que indica en cada rama del arbol y cual es el nivel de confianza?
eso daría para otro vídeo entero :-). pero simplificando mucho el NC lo pones tú, lo más normal es trabajar al 95% o 99%. Con eso se calcula alpha, que es 1-NC, por ej para NC = 95% el alpha es 0.05. Por último si el pvalor es igual o menor que ese alpha significa que la diferencia encontrada SI es estadísticamente significativa, por ej si pvalor = 0.03 entonces sí existe diferencia significativa.
Sería súper útil un video de K-Means!
está en el roadmap :-)
se le agradece..
videeeeaaso
Hola gracias por el video, como se haria para ajustar el árbol con el objetivo de tener una predicción cerca de 100% en uno de los targets, aunque en el otro tenga muy pobre prediccion. Gracias
Hola, es un tema más avanzado. Hay 2 métricas que se llaman precision & recall. Puedes ir cambiando los puntos de corte hasta maximizar la precision de los unos. El coste que vas a tener no es tanto a costa de los ceros si no a costa de cometer más falsos positivos.
En los cursos de DS4B hay un módulo específico para este tema porque como te digo es un tema avanzado pero al que se le puede sacar bastante partido desde negocio y no mucha gente lo conoce o lo usa.
También puedes conseguir algo similar a lo que quieres sobreponderando el peso de los unos frente a los ceros, para que sus errores pesen más y entonces el algoritmo se centre más en ellos.
@@DataScienceForBusiness Gracias por tu tiempo y la aclaración.
Hola, podria facilitar el archivo csv se lo agradeceria mucho
Isaac, una pregunta no tengo experiencia en ninguno de las herramientas para crear algoritmos de decisión, que plataforma me recomiendas para utilizar en mi proyecto de tésis, quedo atenta gracias me inscribí en el curso de la página de desafioml.com
depende de el trabajo que vayas a necesitar hacer en la tesis claro. Si vas a necesitar analítica avanzada sí te recomiendo aprender R. Si no quizá no valga la pena el esfuerzo. También puedes usar interfaces gráficas de R, como R, que aunque es menos potente permite hacer muchas cosas sin tener que programar.
Hola, podrías hablar de cómo entrar como becario o trabajar relacionado a esto? Estoy acabado ingeniería informática y me gustaría dedicarme al mundo de la IA y los datos y no encuentro nada para gente sin experiencia. Soy de Barcelona
Con la titulación de ingeniero informático creo que no vas a tener problema. Cuando acabes haz alguna formación adicional en data science para complementar con la parte de los algoritmos y lenguajes como R o Python, y como dices empieza a buscar trabajo de becario, que es como se empieza.
DataScience ForBusiness muchas gracias! Es que suelo encontrar muy poco y me encanta este mundo. Igual si veo que no entro en ningún lado, probare el máster
Hola primero agradecerte por todo el contenido que esta ofreciendo en realidad se valora mucho ya estoy inscrito en el desafió y voy en el Dia 2, pero tengo una duda y quizás no tenga que ver con el video sin embargo creo que si actualmente soy estudiante de economía por lo que tengo conocimiento de econometria y estoy realizando un modelo que me arroje la probabilidad de desempleo de un individuo con X característica la cosa es que estoy usando un modelo de regresión logística en el que tengo desbalance, mi pregusta es se debe aplicar una técnica para balancear solo mi variable dependiente o también se debe de aplicar para balancear cada una de las categorías de mis variables independiente es algo que he estado buscando pero no se especifica del todo y claro dicho proceso supondrá una gran cantidad de trabajo por que son muchas variables independientes cada una con varias categorías
Te agradezco la respuesta que me puedas dar y de nuevo muchas gracias por el contenido que nos facilitas a los autodidactas
Hola, sólo debes balancear sobre la variable dependiente. Aunque recuerda que balancear al final es quitar o poner (duplicar) registros, así que también podrás tener un impacto indirecto sobre la distribución del resto de variables. Pero sólo debes "cuadrar" por decirlo así, la dependiente. De todas formas la regresión logística en concreto no se ve afectada por el desbalanceo, así que podrías seguir sin balancear, incluso sería más recomendable para no modificar artificialmente la estructura de los datos.
@@DataScienceForBusiness entiendo muchas gracias por aclarar mi duda casi existencial
Contenido de mucha calidad y youtube no le da visibilidad.
Un comentario. Los árboles de decisión no predicen fuera del rango de datos que entrenaron el modelo. En ese sentido no tiene capacidad de predecir valores futuros que no se hayan dado antes.