Imputación de datos perdidos con bosques de decisión. missForest. [Chupitos de R]

Pablo Vallejo Medina

Просмотров 6 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 4 янв 2025

Комментарии • 36

@rubiadias7677 Месяц назад ⁺¹
Muito obrigada!
@SamirRicardoNemeChaves 4 года назад
Tremenda herramienta, con bases de datos grandes es de mucha ayuda, tus contenidos siempre aportan un montón a los entusiastas de R, gracias por el esfuerzo !!!
@PabloVallejoMedina 4 года назад ⁺¹
Muchas gracias como siempre Samir, ya estamos en proceso de monetización. Así que empezaréis a ver algún que otro anuncio.
@wladimirgonzalez3667 3 года назад
Excelente explicación. Gracias!!!!
@PabloVallejoMedina 3 года назад
Un placer, muchas gracias
@adriangarrudo 3 года назад
Una explicación perfecta !!!! Muchas gracias por todo
@PabloVallejoMedina 3 года назад
Un placer!!!
@adriangarrudo 3 года назад
@@PabloVallejoMedina Una cosilla, comentas en el vídeo que también funciona con variables categóricas ?
Me reporta un error y creo que es debido a eso.
missForest iteration 1 in progress...done!
Error in FUN(left, right) : argumento no-numérico para operador binario
Además: Warning messages:
1: In mean.default(xmis[, t.co], na.rm = TRUE) :
argument is not numeric or logical: returning NA
2: In mean.default(xmis[, t.co], na.rm = TRUE) :
argument is not numeric or logical: returning NA
3: In mean.default(xmis[, t.co], na.rm = TRUE) :
argument is not numeric or logical: returning NA
A ver si te ha pasado alguna vez, gracias de antemano, un saludo
@juancampos9693 4 года назад
Genial y muy útil como siempre, apenas tenga tiempo haré una maratón de tus videos jaja, Saludos!!
@PabloVallejoMedina 4 года назад ⁺¹
Los chupitos hay que tomarlos poco a poco ;)
@demigod4504 Год назад ⁺¹
Este video vale ORO!. Que grande Maestro. +1 Sub aquí. Solo una pregunta, el % de error estimado tanto para las variables continuas como para factores, depende de la cantidad de variables que se incluyan en el data frame? o sólo de la cantidad de observaciones registradas vs los N/A por columna.
@PabloVallejoMedina Год назад
Hola, no conozco los pormenores de la estimación. Al final es un machine learning sin testar. Entiendo que el % dependerá del poder predictivo de las variables entre sí, el número de omisiones... pero ya te digo está fuera de mi campo e incluso de mi nivel de abstracción.
@nubiazoelara438 2 года назад
Excelente explicación, gracias. Tengo duda si hay algún número mínimo de observaciones para trabajar esta técnica. Saludos!
@PabloVallejoMedina 2 года назад
Hola Nubia, muy buena pregunta. Es un procedimiento de machine learning. En realidad, cuantas más observaciones más aprenderá. En teoría con 3 ya funcionaría, pero sería 0 fiable. También depende del número de datos perdido, prefiero tener 100 observaciones para estimar un dato perdido, que 1000 para estimar 500. No sé si me he explicado.
@omarllanescardenas2498 5 месяцев назад
Bien
@freddycful 4 года назад ⁺¹
Buena maestro
@PabloVallejoMedina 4 года назад
Muchas gracias !!
@paulaamado7281 3 года назад
Hola!! Excelente video. Tengo una pregunta. En qué se diferencia con el paquete de "missRanger"? Corre de forma similar?
@GuisseppeVasquezV 4 года назад
Espectacular tu video, habia leido del missForest en un libro pero gracias por ponerlo en video. Una consulta una vez imputado los datos perdidos 1) Podrias comentar que prueba estadistica se usa para seleccionar que serie imputada es mejor en caso se hagan diferentes corridas con la misma data, escuche de la prueba de curtosis pero no se si es esa u otra que recomiendes. 2) La corrida lo hiciste con los valores por default pero cuantas iteraciones tu recomendarias si tuvieras series de tiempo largas.
Muchas gracias.
@PabloVallejoMedina 4 года назад
Qué tal?
1. pues la verdad no hay casi diferencias si la corres varias veces. Si no estoy mal itera en función de las diferencias y no del error. Por lo que si se detiene en la 4 iteración podría ser que la 3 tuviera menos error. Tu le puedes forzar a que termine en la 3, pero la verdad las diferencias son mínimas. Así que no creo que sea necesario. Tampoco se me ocurre un contraste realista entre varias imputaciones, pienso en una mediada de consistencia interna tipo alfa de Cronbach, pero las diferencias no serian significativas... yo no creo que merezca la pena meterse a hacer esas comparaciones. Más bien entre la matriz sin imputar y la imputada... eso depende de los análisis que quieras hacer, aquí hay más información: www.kaggle.com/lmorgan95/missforest-the-best-imputation-algorithm
2. yo le dejo al programa que lo haga. No suelo trabajar con series temporales largas, pero sí con bases de datos grandes. Suele encontrar soluciones tras 1 o 2 min en unas 15 iteraciones, pero yo le fuerzo a un n fijo.
@xabierbarrutia4021 Год назад
Y si los valores perdidos no están dispersos por la matriz? Por ejemplo, una encuesta pasada antes y después, si en el "después" hay personas que no han contestado, pero no quiero perder esos datos, se pueden imputar también? Saludos
@brunocandiotti5441 6 месяцев назад
No sé si te ayude porque ya pasaron 5 meses, pero no, no se debe imputar ya que son datos perdidos por un mecanismo no aleatorio (el encuestado no respondió). La imputación solo se usa para datos perdidos por mecanismos aleatorios o completamente aleatorios
@felixbaltazar3255 3 года назад
Una consulta cuál es el umbral de los errores para considerable aceptable
@PabloVallejoMedina 3 года назад ⁺¹
No hay consenso, depende del número de datos perdidos, el tipo de variables., el objetivo del estudio. Pero por darte un número, no tendría ningún sentido hacerlo si tiene más de un 50% de error.
@billestrada2905 4 года назад
Hola!! Genial tu video! Un par de consultas,: 1.-¿El primer argumento de imputación muestra los errores estimados de todas las variables en conjunto y el segundo argumento lo hace por cada variable, verdad? 2.-¿Entre qué valor es recomendable que esté el error estimado? Éxitos! pdta: tienes un tutorial sobre minería de datos? no hay muchos en español con R :/
@PabloVallejoMedina 4 года назад ⁺¹
1. Sí correcto.
2º. No hay consenso, depende del número de datos perdidos, el tipo de variables., el objetivo del estudio. Pero por darte un número, no tendría ningún sentido hacerlo si tiene más de un 50% de error.
@dr.jonssanchez1617 4 года назад
bravo!
@PabloVallejoMedina 4 года назад
Muchas gracias.
@fersilvavia 3 года назад
Muchas gracias, excelente vídeo!! Tienes alguna referencia de la parte matemática estadística detrás de todo esto?
@PabloVallejoMedina 3 года назад
No, pero si buscas por randomforest encuentras seguro.
@claudialuna8156 3 года назад
Hola amigo, gracias por el video, ya estoy suscrita y te di mi like :) Tengo una pregunta, estoy tratando de aplicar la función a mi data frame tal como tú lo haces, pero me arroja el siguiente error:
> imp
@PabloVallejoMedina 3 года назад
Mhh ni idea, pueden ser muchas cosas, me falta información.
@blancamartinez5211 Год назад
Hola no se si aún veas los comentarios pero tengo un conjunto de datos grande y me genera el siguiente error: missForest iteration 1 in progress...Error in randomForest.default(x = obsX, y = obsY, ntree = ntree, mtry = mtry, :
Can not handle categorical predictors with more than 53 categories. Parece que missforest no me funciona debido a que no puede manejar predictores categóricos con más de 53 categorías. Qué otro método puedo usar? Es posible contactarse contigo?
@PabloVallejoMedina Год назад
Hola Blanca, ¿qué estás evaluando con 53 categorías? No sé si tiene sentido imputar ese tipo de variables categóricas, imagino que el error del algoritmo será enorme.
@godoyfreddy 4 года назад ⁺¹
Excelente! Oye te coloco el like pero veo que youtube no te lo contabiliza.
@PabloVallejoMedina 4 года назад
RUclips no me quiere mucho ;). No no sé ni idea. No hay lio. Muchas gracias

Следующие

Автовоспроизведение

Clúster de super héroes Marvel y DC en Rstudio y R [Chupito de R]