Análise de Cluster no R - Dendrograma

Поделиться
HTML-код
  • Опубликовано: 30 ноя 2024

Комментарии • 49

  • @PauloLeiteBR
    @PauloLeiteBR 3 года назад +1

    Muito bacana Marcelo, obrigado pelo vídeo, ajudou muito!

    • @carvalhoribeiro
      @carvalhoribeiro  3 года назад

      valeu fico feliz que o conteúdo tenha sido útil pra você

  • @jacksmaia
    @jacksmaia 4 месяца назад +1

    Agora entendi bem como funciona a analise de agrupamentos pelo R.
    Achei mais fácil do que pelo Python

    • @carvalhoribeiro
      @carvalhoribeiro  4 месяца назад

      fico feliz que o conteúdo tenha sido útil.

  • @marcossilveirawrege6847
    @marcossilveirawrege6847 2 года назад +1

    Muito bom, com excelente didática!!!

    • @carvalhoribeiro
      @carvalhoribeiro  2 года назад +1

      obrigado. fico feliz que o conteúdo tenha sido útil pra você

  • @fagnerjr.5857
    @fagnerjr.5857 4 года назад +1

    Parabéns, Marcelo. Conteúdo e didática excelente. Continue postando vídeos, assisto todos e aprendo muito. Obrigado.

    • @carvalhoribeiro
      @carvalhoribeiro  4 года назад +1

      Obrigado..fico feliz em saber que o conteúdo está sendo útil

  • @brunabarbosa4897
    @brunabarbosa4897 11 месяцев назад +1

    Suas aulas são incríveis e estão me ajudando no doutorado. Como eu incluo uma legenda no estilo caixinha com a escala de cor e valores nesse heatmap?

    • @carvalhoribeiro
      @carvalhoribeiro  11 месяцев назад

      Você consegue criar sim, aqui o código padrão e pra ajustar basta verificar as opções existentes na função *legend*
      dados

  • @janainamuniz8628
    @janainamuniz8628 4 года назад +1

    Perfeita aula, bem didático!

  • @davinos469
    @davinos469 4 года назад +1

    Obrigado meu amigo pela sua colaboração no meu aprendizado.

    • @carvalhoribeiro
      @carvalhoribeiro  4 года назад +1

      Fico feliz que o conteúdo tenha sido útil pra você Davi

  • @WagnerJrSilva
    @WagnerJrSilva 4 года назад +1

    Queria poder dar 50 mil likes !! Muito obrigado por disponibilizar essa aula.

  • @guilhermegoiania
    @guilhermegoiania 4 года назад +1

    Excelente aula, Marcelo! Estou utilizando muito as análises e scripts aprendidos nos vídeos. Valeu, Abs!!!

    • @carvalhoribeiro
      @carvalhoribeiro  4 года назад

      Obrigado Guilherme, fico feliz que o conteúdo esteja sendo útil pra você

  • @wilsonbotelho3530
    @wilsonbotelho3530 Год назад +2

    Boa noite Professor. Vi sua aula sobre k-means e esta agora sobre HCA. Quando aplicamos K-means temos a função para definir o melhor número de clusters.
    Gostaria de saber se no HCA teríamos alguma função semelhante para definir o número de cluster ou onde realizar o "corte" no dendograma para definir o número de agrupamentos.

    • @carvalhoribeiro
      @carvalhoribeiro  Год назад +2

      Olá Wilson tudo bem ? Tem sim e você pode usar o pacote NbClust. Os métodos usados para cluster hierarquico podem ser ward.D, ward.D2, average etc.
      Exemplo usando o conjunto de dados mtcars
      library(NbClust)
      NbClust(mtcars, distance = "euclidean", min.nc = 2, max.nc = 4, method = "ward.D2")
      Se precisar de mais detalhes pode conseguir no Journal of Statistical Software: October 2014, Volume 61, Issue 6

  • @robertaalbu98
    @robertaalbu98 3 года назад +1

    Esse vídeo substituiria duas aulas de 4h do meu professor, obrigada!

    • @carvalhoribeiro
      @carvalhoribeiro  3 года назад +1

      Fico feliz que tenha sido útil. Um dos objetivos do canal é complementar o conteúdo da academia associado a prática. Sempre que tiverem dúvidas deixem aqui ou em outro canal mas não deixe sem resposta. A dúvida de vocês hoje, foi a minha a alguns anos e como diria Steve Jobs "stay hungry, stay foolish".

  • @uilhianaandrade906
    @uilhianaandrade906 3 года назад

    Aula maravilhosa, super didático!

  • @feveraxavier9851
    @feveraxavier9851 2 года назад +1

    gostei bastante!

  • @lucasxavier9109
    @lucasxavier9109 3 года назад +1

    Muito bom, obrigado !
    Para puxar outra base de dados, qual seria o comando ? Uma planilha do excel

  • @gustavoadolfovillalbadure576
    @gustavoadolfovillalbadure576 4 года назад +1

    Oi Marcelo, o video ficou bom. Eu tenho uma pergunta. Minha matriz tem dados categóricos e quantitativos. Dando uma olhadas a distancia, em lugar de fazer a euclidiana usaria a distancia de Gower. Agora, to precisando fazer um corte, mas a seleção da linha de corte é subjetiva. Tem um critério para estabelecer s que altura é bom fazer aquela linha corte? OBRIGADO

    • @carvalhoribeiro
      @carvalhoribeiro  4 года назад

      Olá Gustavo dado que você já optou pelo método gower e o corte sendo o n de cluster uma sugestão seria o silhouette fazer testes usando o PAM e observar e ir avaliando. E uma resposta difícil no momento dado às características do gower e dos seus dados que eu não conheço.

  • @Muxta
    @Muxta 5 лет назад +4

    Boa Marcelo! O áudio ficou baixo, mas o conteúdo está bom. Parabéns!

    • @carvalhoribeiro
      @carvalhoribeiro  5 лет назад

      Obrigado sempre pelos comentários Musta. A garganta estava uma detonada mas eu tinha que gravar mais pra frente darei uma atualizada. Um abraço agosto tem Stun game festival aqui

  • @ligiatavares4215
    @ligiatavares4215 4 года назад

    MUITO OBRIGADA!

  • @joaopedroventuraazara5314
    @joaopedroventuraazara5314 3 месяца назад +1

    Tenho uma dúvida, quando eu importo uma planilha minha, ao inves dos meu dados ficarem no lugar do row names, eles ficam ocupando a coluna 1

    • @joaopedroventuraazara5314
      @joaopedroventuraazara5314 3 месяца назад +1

      e com isso não consigo proceder a analise do dendograma

    • @carvalhoribeiro
      @carvalhoribeiro  3 месяца назад

      Você pode usar a função
      meus_dados %>%
      column_to_rownames(var = "nome_da_variavel")
      Mas note que a variável que irá para row_names não pode ter valores repeditos...exemplo se você tem banana, laranga, tomate e cebola vai funcionar, agora se você tiver banana, laranja, tomate, laranja não funciona

  • @carvalhoribeiro
    @carvalhoribeiro  Год назад

    Acidentalmente apaguei um comentário com a pergunta sobre a linha de corte..mas a resposta está aqui
    Você pode usar a função cutree para adicionar o ponto de corte.
    cutree(my_dendog, h=3) #altura do corte
    cutree(my_dendog, k=3) #num de cluster
    Neste exemplo aí se você quiser mostrar apenas no gráfico o corte
    abline(h = 2, col = "red")
    ruclips.net/video/0kuwIH7fWzY/видео.html

  • @luanacerqueira8435
    @luanacerqueira8435 4 года назад +1

    Boa noite Marcelo! Sua didática é ótima..parabéns!!!! Eu tenho uma dúvida, se puder me judar agradeço. Eu não uso a versão R-Studio, uso a versão normal do R...
    ...mas minha dúvida é se eu sempre tenho que determinar o número de grupos (k=), ou existe alguma forma do programa inferir o número ideal de grupos a serem formados de acordo com o comportamento das minhas variáveis , o que vai depender da altura da linha de corte. Como determinar a altura da linha de corte e consequentemente o número de grupos formados?? É sempre subjetivo, ou a estatística pode inferir??
    Grata desde já

    • @carvalhoribeiro
      @carvalhoribeiro  4 года назад

      Existe uma função na package factoextra chamada fviz_nbclust que determina pra você o número ótimo de cluster eu expliquei um pouco sobre ele no vídeo sobre kmeans ruclips.net/video/6qleqPsrBqI/видео.html, neste caso bastaria alterar de kmeans para hcut ou se preferir outro método de cluster também pode.

  • @ribeirojv
    @ribeirojv 3 года назад +1

    Como faz pra obter o coeficiente aglomerativo da HCA dessa forma? eu conheço HCA no R pelo pacote cluster usando o comando agnes, nesse o coeficiente aglomerativo é obtido por meio de cbind.

    • @carvalhoribeiro
      @carvalhoribeiro  3 года назад +1

      se você estiver se referindo as classes de cada grupo, da pra usar o cutree...se não for, da pra escolher o valor de saída que você quer assim....cluster$ quando fizer isso vai aparecer as opções. Você pode usar o tidyverse pacote também ficaria assim
      #vai sair esquisito aqui no youtube mas copie e cole pra dentro do R que tudo se ajeita
      install.packages("tidyverse")
      library(tidyverse)
      meu_cluster % #entenda esse cara %>% como "e então" e para adicionar com atalho ctrl + shift + M
      select(mpg, cyl, hp, qsec, gear, carb) %>% #e então selecionando as colunas que quero
      scale() %>% #e então transforme tudo na mesma medida
      dist(method = "euclidean") %>% #e então calcule a distancia euclidiana
      hclust(method = "ward.D2") %>% #e então faz hclust com algoritmo ward.D2
      cutree(h=4) #e então corta a arvore em grupos
      #depois pra adicionar os grupos no dataset mtcars
      mtcars$cluster % head() #tiro um resumo pra ver como fica

  • @michellesantana8909
    @michellesantana8909 5 лет назад +2

    Muito bom Marcelo!!!! Uma dúvida, como podemos fazer para extrair as bases de dados por grupo? Separar a base original em bases para cada grupo gerado.

    • @carvalhoribeiro
      @carvalhoribeiro  5 лет назад +2

      Uma forma é colocar os dados dos grupos que você criou (retangulos) em uma variável por exemplo.... grupos

  • @jovanit.desouza8690
    @jovanit.desouza8690 3 года назад +1

    Bom dia Marcelo, estou fazendo um estudo que utilzia clusterização hierárquica, na qual são é possível gerar 6 cenários. Mas senti dificuldade de saber qual é o melhor cenário. Você tem ideia como posso fazer isso?

    • @jovanit.desouza8690
      @jovanit.desouza8690 3 года назад +1

      Se puder mandar seu contato para que eu possa te explicar melhor.

    • @carvalhoribeiro
      @carvalhoribeiro  3 года назад

      Olá Jovani, a análise de cluste se trata de um modelo não supervisionado de machine learning. Neste caso não sei se seria adequado ou até possível trabalhar com cenários eu fiz um vídeo explicando mais aqui:ruclips.net/video/_Jo-9nBK3s0/видео.html

    • @carvalhoribeiro
      @carvalhoribeiro  3 года назад

      Eu estou nas duas plataformas LinkedIn e Quora...se achar interessante, publique seu artigo lá e podemos ir ajustando direto nas plataformas.

  • @emersonrenato39
    @emersonrenato39 4 года назад +1

    Professor, no caso apar cê na legenda "distância" entre os agrupamentos, essa distância eu também posso dizer que seriam as similaridades entre os grupos formados? E teria como eu dizer de quanto é essa similaridade entre eles?

    • @carvalhoribeiro
      @carvalhoribeiro  4 года назад +1

      Quanto mais distante os grupos mais diferentes eles são. Quanto mais próximos os pontos dentro de cada cluster, mais parecidos eles são.