[k medoids] Clúster PAM robusto en R y Rstudio [Chupito de R]

Поделиться
HTML-код
  • Опубликовано: 11 сен 2024

Комментарии • 74

  • @EXXNmmmm
    @EXXNmmmm 4 года назад +1

    Lo bien que esto que haces me hubiera venido para mi aún inacabada tesis. Aquello me parece de pedales ahora... Serás estadístico, profesor, investigador, editor y todo eso, pero comunicando eres de lo mejor... How well you do this would have suited me for my still unfinished thesis. That past seems bicycle pedals to me now ... You will be a statistician, professor, researcher, editor and all that, but communicating you are the best ...

    • @PabloVallejoMedina
      @PabloVallejoMedina  4 года назад

      Holaaaa, síii. La verdad es que la estadística actual no tiene nada que ver con lo que nos habían enseñado. El poder computacional es brutal, pero no es nada con lo que se viene ;)

  • @gerenciapredictive7107
    @gerenciapredictive7107 3 года назад +2

    Excelente vídeo, muchas gracias.

  • @marlonguerrerocastro9673
    @marlonguerrerocastro9673 3 года назад

    Muchas gracias es lo que estaba buscando desde hace mucho tiempo. Exc canal con contenido muy bien explicado

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 года назад

      Muchas gracias @Marlon. Me alegra te guste el contenido ;)

    • @marlonguerrerocastro9673
      @marlonguerrerocastro9673 3 года назад

      @@PabloVallejoMedina Hola pablo disculpe las molestia, estuve analizando unos datos que tengo y los corri con este scrip pero no pude correr la parte donde se genera un resumen dentro de cada cluster. A que paquete pertenece la funcion mutate? me sale este error Error in mutate(., Cluster = pam3$clustering) :
      could not find function "mutate"

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 года назад

      @@marlonguerrerocastro9673 dplyr

  • @javardi86
    @javardi86 4 года назад +1

    Buen video. Me va a servir bastante.

  • @eurano30
    @eurano30 Год назад

    Gracias por hacer entendible un tema complicado.

  • @robertoescobar4367
    @robertoescobar4367 3 года назад

    Gracias por hacer estos videos carnal, explicas mucho mejor que mi maestra jaja

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 года назад

      Cada maestrillo tiene su librillo ;). Me alegra te guste.

  • @luzelenaduranc.3466
    @luzelenaduranc.3466 2 года назад

    Pablo, muchas gracias por realizar chupitos de altísima calidad. Tengo 2 dudas que quisiera aclarar con ud caso sea posible: 1. Que hacer cuando aparece este mensaje ggrepel: 20 unlabeled data points (too many overlaps). Consider increasing max.overlaps
    2 Qué significa o Dim1 e o DIm2 que aparece en los ejes del gráfico de los clusters?
    MUchas gracias

    • @PabloVallejoMedina
      @PabloVallejoMedina  2 года назад

      Hola Luz,
      1: tienes demasiadas observaciones para tener encendido el REPEL = TRUE, mejor apágalo.
      2. Son las dimensiones en las que se distribuye el AFC, que al ser 2D siempre serán 2.

  • @demianramirez3192
    @demianramirez3192 2 года назад

    Excelente explicaciòn

  • @ralvarezc14
    @ralvarezc14 4 года назад +1

    Muchas Gracias. Me sirvió de mucho. Solo una duda, hay forma de ocultar los labels y solo mostrar los puntos? Saludos.

    • @PabloVallejoMedina
      @PabloVallejoMedina  4 года назад +1

      Hola sí. Simplemente tienes que explorar la función fviz ;) sería algo así:
      fviz_cluster(k3, geom = "point", data = tudataframe[-1]) salvo que du data frame este organizado raro eso te debería servir.

  • @carlosm.galvancisneros5620
    @carlosm.galvancisneros5620 3 года назад +1

    Hola, Pablo
    Muy buen video, tengo una pregunta: ¿cómo haces para que R o la función correspondiente te acepte la columa no numerica en el objeto "df" y así mantenga el nombre de las ciudades, por ejemplo, en el momento de hacer el dendrograma?
    En mi caso sólo acepta columnas numericas, no estoy trabjando con la bases de datos que tu trabajas en este video.

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 года назад +1

      Hola, si tu error ya lo viví personalmente. Es que estados no es una variables, son los nombres de las filas. TIenes que utilizar este código:
      df

    • @carlosm.galvancisneros5620
      @carlosm.galvancisneros5620 3 года назад

      @@PabloVallejoMedina !Muchas gracias!, el código ha funcionado con éxito. He podido hacer el dendrograma con los nombres de las localidades.

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 года назад

      @@carlosm.galvancisneros5620 Súper, me alegro ;)

    • @fernandomurillo7959
      @fernandomurillo7959 3 года назад

      @@PabloVallejoMedina Muchas gracias, yo tenía la misma duda.

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 года назад

      @@fernandomurillo7959 ¨De nada, tengo un video reciente sobre kmeans en super heroes donde lo soluciono ;)

  • @mauriciocerrutti7248
    @mauriciocerrutti7248 2 года назад

    Estimado, no usa variables cualitativas para estimar cantidad de cluster. Si tiro la "funcion fviz_nbclust(df, pam, method = "wss")" me da error por no ser 100% numeric?

  • @valeriafonseca8228
    @valeriafonseca8228 3 года назад

    Hola Pablo, amé el video enserio ya comprendo mucho mejor todo, sin embargo cuando quiero aplicar mutate(cluster= pam.res$cluster), para poder ver un summary en tabla de las variables por clusters no me deja, sale que la función mutate no es encontrada ... debo instalar algo primero?

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 года назад +1

      Muchas gracias. Hay otro video donde explico un poco lo de mutate (se llama de long format a wide) o algo así ;). Tienes que instalar antes dplyr y llamaro ;). Un saludo y genial que te haya gustado.

  • @ejleguia
    @ejleguia 3 года назад

    buenas noches... Pablo. Una pregunta.... ¿es posible incluir variables cuantitativas discretas o categóricas en esa rutina?

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 года назад

      En principio sí, luego revisa si te está agrupando con cierta lógica. ;)

  • @ojilvemedrano
    @ojilvemedrano 4 года назад

    ¿Pablo para cuando organizas un botellón sobre R (curso)?. Es hora de juntarnos en un chupinazo!

    • @PabloVallejoMedina
      @PabloVallejoMedina  4 года назад +1

      Había pensando hacer un directo un día de estos, pero no suelo tener calma ahora mismo para hacerlo.

  • @hugoalbert4695
    @hugoalbert4695 2 года назад

    Buenas Pablo!
    Al intentar ejecutar la línea: 'resnumclust

    • @PabloVallejoMedina
      @PabloVallejoMedina  2 года назад

      Muéstrame el error entero please ;)

    • @hugoalbert4695
      @hugoalbert4695 2 года назад

      @@PabloVallejoMedina Error in diag(var(Xuse)) : vector is too large

    • @PabloVallejoMedina
      @PabloVallejoMedina  2 года назад

      @@hugoalbert4695 Al ponerle este argumento: index = "alllong" creo que le queda muy pesado para tus datos, ves de uno en uno o saca solo los que te interesen.

  • @rafaelme4339
    @rafaelme4339 3 года назад

    Hola Pablo, estoy haciendo un análisis aplicando este método. Tengo algunas dudas acerca de emplear el método kendall u otro, ya que mis datos son de tipo ordinal en una escala de 1 a 5. ¿Usarías otro para este tipo de datos?
    Muchas gracias por la info, no sabes lo que estoy aprendiendo :)

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 года назад

      Uff no lo sé. Iría probando a ver qué tal funciona. Pero a priori no le veo mucho problema a Kendall ;)

    • @rafaelme4339
      @rafaelme4339 3 года назад

      @@PabloVallejoMedina Muchas gracias

  • @marialesendon7541
    @marialesendon7541 3 года назад

    Hola Pablo! Muchas gracias por el video! Tengo un problema y creo que tiene que ver con que no puedo bajar la base de datos como un data frame. Y la primera columna es de texto... entonces no la normaliza... Probé algo que sugeriste en otro video pero no me funcionó era esto, dfitems

  • @wilmeroporta5281
    @wilmeroporta5281 3 года назад

    Hoola si tengo variables tipo escalar de likerts del 1 al 7 ocuparia que metodo para clasificar

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 года назад +1

      Hola, yo creo que este mismo podría servir. A ver cómo te va.

  • @samirricardoneme-chaves9086
    @samirricardoneme-chaves9086 4 года назад

    Estimado Pablo, excelente chupito, gracias por la explicación , tengo una duda, ¿si yo tengo un objeto hclust, podría convertirlo a data frame para graficarlo con ggplot y sacarle más jugo que solo el dendograma?

  • @miguelortiz5209
    @miguelortiz5209 4 года назад

    Puedes hacer un fuzzy c medias? Y explicar eso del vector de pesos?

    • @PabloVallejoMedina
      @PabloVallejoMedina  4 года назад

      No sé se me vaya por ahí ahora mismo. De momento voy a dejar los clústeres. EN el futuro quizá lo añada ;)

  • @bastianelgueta7318
    @bastianelgueta7318 4 года назад

    Qué recomiendas para clusterizar a partir de variables categóricas y continuas?
    Saludos !

    • @bastianelgueta7318
      @bastianelgueta7318 4 года назад

      Y como determinas cuales y cuantaas variables utilizar para clusterizar?

    • @PabloVallejoMedina
      @PabloVallejoMedina  4 года назад +1

      Puede ser Kmodes, Kamila no sé si servirá.. Depende un poco.

    • @PabloVallejoMedina
      @PabloVallejoMedina  4 года назад +1

      @@bastianelgueta7318 Creo que mientras esté teóricamente justificado no hay lio.

  • @solidarityLearningSol
    @solidarityLearningSol 3 года назад

    Hola Pablo, que hacer cuando quiero aplicar PAM sobre un dataset que tiene millones de registros y aparece este mensaje:
    > pam9

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 года назад

      Bufff, ni idea. Ese big data me queda grande

    • @fernandomurillo7959
      @fernandomurillo7959 3 года назад

      Sucede que pam es limitado en datos, exactamente en 65536, deberías trabajar con clara en vez de pam, ya que clara acepta cantidades de datos mas grandes.

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 года назад

      @@fernandomurillo7959 Sí, yo no suelo trabajar en big data, pero sería una opción más eficiente para data sets tan grandes.

  • @jolguinsito
    @jolguinsito 4 года назад

    Hola, tengo una dudade como cambiar la ruta de rstudio general para que me busque los paquetes dado que al intentar activar algun paquete me sale el siguiente error, de antemano gracias (quiero cambiarlo a "C:/")
    Error: package or namespace load failed for ‘readxl’ in get(Info[i, 1], envir = env):
    no fue posible abrir el archivo 'C:/Users/lOlguín/Documents/R/win-library/4.0/Rcpp/R/Rcpp.rdb': No such file or directory

    • @PabloVallejoMedina
      @PabloVallejoMedina  4 года назад +1

      simplemente escribe file.choose()
      y ejecuta, se te abrirá una ventana, eliges tu archivo y en la consola te escupe la ruta ;)

    • @jolguinsito
      @jolguinsito 4 года назад

      @@PabloVallejoMedina gracias pero no es ese mi problema, a ver como me explico quiero redirigir donde r busque los paquetes y librerias porque esta buscando en documentos y el mombre de carpeta de usuario tiene tilde y quiero llevarlo a la base del disco c y se que hay una formula para ello

    • @jolguinsito
      @jolguinsito 4 года назад

      @@PabloVallejoMedina ya encontre mi respuesta, use .libPhats para redirigir la instalacion y busqueda de paquetes.
      Muchas gracias

    • @PabloVallejoMedina
      @PabloVallejoMedina  4 года назад

      @@jolguinsito Ahhh genial, no te entendí. No conocía esa forma ;)

  • @gorditaau
    @gorditaau 4 года назад

    Muchas gracias por el video, pero tengo problemas al correr la línea 70, me arroja esto "Warning: Ignoring unknown parameters: fun" y luego me tira todos los valores iguales a cero, sería de mucha ayuda si sabes la respuesta. Saludos!

    • @PabloVallejoMedina
      @PabloVallejoMedina  4 года назад +1

      Hola paula, me puedes enviar el código del ggplot que estás poniendo?

    • @gorditaau
      @gorditaau 4 года назад

      ggplot(data_long, aes(as.factor(x = variable), y = valor,group=cluster, colour = cluster)) +
      stat_summary(fun=mean, geom="pointrange", size = 1, aes(shape = cluster))+
      stat_summary(geom="line")
      Le hice cambios, adhoc a mi código. Gracias de antemano

    • @PabloVallejoMedina
      @PabloVallejoMedina  4 года назад

      @@gorditaau Mhh no sé. Aquí parece que pueda haber una función que te ayude, pero no sé que puede estar pasando... www.r-bloggers.com/simplifying-ggplot2-code-by-doing-nothing/

    • @gorditaau
      @gorditaau 4 года назад

      Gracias!