Como fazer CLUSTERIZAÇÃO com Python

Nerd dos Dados

Просмотров 7 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 4 янв 2025

Комментарии •

@cannabisbrasil9970 2 месяца назад ⁺¹
Muito bom, Jefferson!!! Parabéns pelo canal, pela técnica e didática!
@MrDEMATUBE Год назад ⁺⁷
Provavelmente o melhor canal de análise de dados e modelagem
@MrGhustavo22 2 года назад ⁺²
Esse vídeo tem muita técnica envolvida, cabe maratonar as indicações na descrição para aperfeiçoamento, valeu novamente Jefferson!
@kenedysilva3091 4 месяца назад
Esse é o mestre dos mestres
@Angel_Yurdys 5 месяцев назад
Amei imenso, foi fantástico de certeza ❤️, mas eu gostaria que tu faça um vídeo fazendo um modelo de deteção e classificação de anomalias usando Tensor flow 🙏🏾
@rodi21 2 года назад ⁺²
Bom dia Jefferson!! Muito bom esse canal que acabou de nascer. Traz muita informação e aplicação prática das técnicas.
Para iniciantes, como eu, super valioso.
Me permite uma sugestão? Se você puder "printar" alguns passos para vermos as saídas, creio que seja muito importante.
Por exemplo: quando você faz a redução de dimensionalidade usando o PCA, imprimir essa variável "pca" para vermos em que ela se transformou.
Um forte abraço e vida longa ao canal!
@aires_faustino 5 месяцев назад ⁺¹
Que fantástico Jefferson 🎉... Temos um projeto na faculdade e preciso que me ajudes a disponibilidade de um conteúdo de um modelo de deteção completo por favor 🙏🏿
@claudio1417 2 года назад ⁺²
Jeferson, top. As always show. Congratulations friend.
@nerddosdados 2 года назад ⁺¹
Oi Claudio muito obrigado…valeu
@leandroneri89 2 года назад ⁺¹
Show, excelente ja vou me inscrever
@thelil777bro3 6 месяцев назад
muito bom!
@HENRIQUECANDINHO Год назад ⁺¹
Muito bom seu trabalho! Se puder outra hora fazer um video sobre criação de regras com arvores de decisão ou outros algoritmos e qual a melhor forma de aproveitar essas regras para um modelo.Vida longa ao canal!
@nerddosdados Год назад
Obrigado, que bom que está gostando. Tem uma playlist aqui no canal com alguns modelos de machine learning e tem alguns com árvore de decisão e alguns outros algoritmos
@HENRIQUECANDINHO Год назад
@@nerddosdados Estou maratonando, aprendendo sempre mais, valeu!
@ariclenesbrawl9601 5 месяцев назад
O treinamento foi bem feito, o modelo de classificação e detecção e mas desafiador que tal fazer um vídeo desses aqui no canal?
@nerddosdados 5 месяцев назад
Tem um playlist de machine learning com modelos de classificação aqui no canal…vários modelos
@MrJoaoToin Год назад
Vídeo sensacional e muito didático. Eu tentei executar o algoritmo sem usar o PCA, mas houve uma série de erros que surgiram e estou resolvendo. Teria outro vídeo se o uso de PCA?
@nerddosdados Год назад
Olá vou fazer esse vídeo sem o PCA em breve posto aqui no canal
@alehffeinstein 2 года назад ⁺²
Cara, sensacional! Muito obrigado, cê tem contrubuído muito pro meu crescimento como cientista de dados!
Algumas perguntas:
Porque você colocou o número de componentes no PCA igual a 2? (n_components = 2) tem algum jeito de saber qts componentes colocar?
Nesse caso você usou normalização dos dados, ao invés de padronização. Normalizar é melhor do que padronizar, em termos de clusterização?
O uso de normalização dos dados deu diferença na resposta do Silhouete score? E da curva de Elbow?
Mais uma vez muito obrigado pelo vídeo e pela ajuda, vou baixar aqui o código e ir testando pra aprender mais. Abraço!
@nerddosdados 2 года назад ⁺²
Olá,
No caso do PCA que eu utilizei 2 componentes eu usei mais para nível de demonstração e demonstrar uma possibilidade nova.
No caso do PCA como que eu geralmente utilizo. Primeiro ponto que eu utilizo o PCA somente quando tenho mais de 100 variáveis, quando tenho menos de 100 variáveis eu não costumo utilizar.
Em relação a saber a quantidade ideal de componentes o ideal é fazer testes mesmo. Por exemplo, se eu tiver um conjunto de dados com 300 variáveis eu faço testes pra ver o melhor resultado gerando diversos PCA´s. Gero com 30, 35, 40, 45, 50, 60, 70, 80, 90 e faço todo trabalho de criar um modelo e testar e avaliar cada um deles pra ver a melhor performance.
Nesse exemplo específico que utilizei a normalização ao invés da padronização foi porque de acordo com estes conjuntos de dados a normalização ficou melhor, o valor da silhuete score ficou mais alto que fazendo da padronização, mas para saber qual utilizar sempre é ideal fazer teste das duas formas, padronizando e normalizando.
Em relação ao número de cluster não gerou diferença, o melhor número de cluster foi 8 em todos os casos mesmo.
Mas tudo depende dos dados que temos, do conjunto de dados e do volume de dados também.
@erikhenrique6700 8 месяцев назад
Daria também para fazer isso com ítens de uma usina, traçar um paralelo entre ítens e tentar buscar uma familiaridade entres os ítens, porém com códigos diferentes, e descrição também, só a semelhança no uso... E que está na base de dados, isso teria?
@nerddosdados 8 месяцев назад
Seria possível fazer sim tudo vai depender dos dados que você tem pra trabalhar
@claudio1417 2 года назад ⁺¹
Jeferson, qual seu entendimento sobre Data Leakage? Minha dúvida é: será que quando criamos novas variáveis (colunas), ou fazemos alguma engenharia antes de separar os dados de treino e teste não estou cometendo erro? Pelo que eu entendi basicamente, só devemos normalizar e padronizar os dados em cima dos dados originais, certo? Cara, estou lendo à respeito e surgiu essas dúvidas.
@nerddosdados 2 года назад ⁺¹
Oi Cláudio.
Quando fazemos uma engenharia de atributos devemos criar essas novas variáveis antes da padronização ou normalização, porque quando aplicamos essa normalização ou padronização também será necessário fazer nessas novas variáveis. E quando o modelo preditivo entra em produção por exemplo sempre precisará gerar essas novas variáveis.
Mas da mesma maneira que uma engenharia de atributos ajuda, dependendo do contexto e do cenário ela pode causar uma multicolinearidade (variável semelhante a uma atual e gerar uma correlação maior que o normal é prejudicar o modelo preditivo) isso pode as vezes causar um overfithing no modelo.
Exemplo: se você tem uma variável SALÁRIO e você cria uma nova variável como FAIXA SALARIAL, você precisará treinar e testar o modelo e ver qual variável ficará melhor, se você usar as duas….como elas correspondem a um mesmo tipo de informação isso pode te causar um Data Leakage ou um overfithing ou até mesmo uma performance baixa do modelo
@claudio1417 2 года назад ⁺²
@@nerddosdados Entendi. Muito obrigado pelo esclarecimento Jefferson. Ótima noite. Show,.velho.
@raphaelbonillo5280 Год назад
Vi no Orange um rapaz dizendo que o Silhouette Score tem o mesmo obejetivo do Elbow Method. Fiquei em dúvida agora. Pra avaliar o modelo não seriam os métodos de Inertia e o Dunn Index?
@nerddosdados Год назад
Ola Raphael.
Na verdade todos esses métodos são métricas de avaliação do modelo, todos servem pra avaliar o modelo.
@pardalgamesroyalrealpedro5995 11 месяцев назад
No Silhouette Score, você tem acesso aos valores de acordo com a quantidade de cluster, então retorna uma análise mais precisa do resultado vs número de cluster. No Elbow, você bate o olho e já define de maneira rápida, mas menos precisa, qual o número de cluster utilizar.
@CrhisângelaFerreira-e5w Год назад
Eu consigo criar um cluster assim de clientes e conseguir saber quais clientes estao em qual cluster? EX: saber todos os Id's dos clientes do cluster 1
@nerddosdados Год назад
Sim da pra fazer um slide e filtrar e separar os ids
@valdirsilva3385 6 месяцев назад
Boa tarde, vc presta serviço? Se sim, poderia entrar em contato.
@nerddosdados 6 месяцев назад
Bom dia
Pode me chamar no e-mail comercial@nerddosdados.com.br
@GG-mz6rq Год назад ⁺¹
Didática fora do normal

Следующие

Автовоспроизведение

Como fazer Reconhecimento de Imagem com Python - Passo a Passo