Amei imenso, foi fantástico de certeza ❤️, mas eu gostaria que tu faça um vídeo fazendo um modelo de deteção e classificação de anomalias usando Tensor flow 🙏🏾
Bom dia Jefferson!! Muito bom esse canal que acabou de nascer. Traz muita informação e aplicação prática das técnicas. Para iniciantes, como eu, super valioso. Me permite uma sugestão? Se você puder "printar" alguns passos para vermos as saídas, creio que seja muito importante. Por exemplo: quando você faz a redução de dimensionalidade usando o PCA, imprimir essa variável "pca" para vermos em que ela se transformou. Um forte abraço e vida longa ao canal!
Que fantástico Jefferson 🎉... Temos um projeto na faculdade e preciso que me ajudes a disponibilidade de um conteúdo de um modelo de deteção completo por favor 🙏🏿
Muito bom seu trabalho! Se puder outra hora fazer um video sobre criação de regras com arvores de decisão ou outros algoritmos e qual a melhor forma de aproveitar essas regras para um modelo.Vida longa ao canal!
Obrigado, que bom que está gostando. Tem uma playlist aqui no canal com alguns modelos de machine learning e tem alguns com árvore de decisão e alguns outros algoritmos
Vídeo sensacional e muito didático. Eu tentei executar o algoritmo sem usar o PCA, mas houve uma série de erros que surgiram e estou resolvendo. Teria outro vídeo se o uso de PCA?
Cara, sensacional! Muito obrigado, cê tem contrubuído muito pro meu crescimento como cientista de dados! Algumas perguntas: Porque você colocou o número de componentes no PCA igual a 2? (n_components = 2) tem algum jeito de saber qts componentes colocar? Nesse caso você usou normalização dos dados, ao invés de padronização. Normalizar é melhor do que padronizar, em termos de clusterização? O uso de normalização dos dados deu diferença na resposta do Silhouete score? E da curva de Elbow? Mais uma vez muito obrigado pelo vídeo e pela ajuda, vou baixar aqui o código e ir testando pra aprender mais. Abraço!
Olá, No caso do PCA que eu utilizei 2 componentes eu usei mais para nível de demonstração e demonstrar uma possibilidade nova. No caso do PCA como que eu geralmente utilizo. Primeiro ponto que eu utilizo o PCA somente quando tenho mais de 100 variáveis, quando tenho menos de 100 variáveis eu não costumo utilizar. Em relação a saber a quantidade ideal de componentes o ideal é fazer testes mesmo. Por exemplo, se eu tiver um conjunto de dados com 300 variáveis eu faço testes pra ver o melhor resultado gerando diversos PCA´s. Gero com 30, 35, 40, 45, 50, 60, 70, 80, 90 e faço todo trabalho de criar um modelo e testar e avaliar cada um deles pra ver a melhor performance. Nesse exemplo específico que utilizei a normalização ao invés da padronização foi porque de acordo com estes conjuntos de dados a normalização ficou melhor, o valor da silhuete score ficou mais alto que fazendo da padronização, mas para saber qual utilizar sempre é ideal fazer teste das duas formas, padronizando e normalizando. Em relação ao número de cluster não gerou diferença, o melhor número de cluster foi 8 em todos os casos mesmo. Mas tudo depende dos dados que temos, do conjunto de dados e do volume de dados também.
Daria também para fazer isso com ítens de uma usina, traçar um paralelo entre ítens e tentar buscar uma familiaridade entres os ítens, porém com códigos diferentes, e descrição também, só a semelhança no uso... E que está na base de dados, isso teria?
Jeferson, qual seu entendimento sobre Data Leakage? Minha dúvida é: será que quando criamos novas variáveis (colunas), ou fazemos alguma engenharia antes de separar os dados de treino e teste não estou cometendo erro? Pelo que eu entendi basicamente, só devemos normalizar e padronizar os dados em cima dos dados originais, certo? Cara, estou lendo à respeito e surgiu essas dúvidas.
Oi Cláudio. Quando fazemos uma engenharia de atributos devemos criar essas novas variáveis antes da padronização ou normalização, porque quando aplicamos essa normalização ou padronização também será necessário fazer nessas novas variáveis. E quando o modelo preditivo entra em produção por exemplo sempre precisará gerar essas novas variáveis. Mas da mesma maneira que uma engenharia de atributos ajuda, dependendo do contexto e do cenário ela pode causar uma multicolinearidade (variável semelhante a uma atual e gerar uma correlação maior que o normal é prejudicar o modelo preditivo) isso pode as vezes causar um overfithing no modelo. Exemplo: se você tem uma variável SALÁRIO e você cria uma nova variável como FAIXA SALARIAL, você precisará treinar e testar o modelo e ver qual variável ficará melhor, se você usar as duas….como elas correspondem a um mesmo tipo de informação isso pode te causar um Data Leakage ou um overfithing ou até mesmo uma performance baixa do modelo
Vi no Orange um rapaz dizendo que o Silhouette Score tem o mesmo obejetivo do Elbow Method. Fiquei em dúvida agora. Pra avaliar o modelo não seriam os métodos de Inertia e o Dunn Index?
No Silhouette Score, você tem acesso aos valores de acordo com a quantidade de cluster, então retorna uma análise mais precisa do resultado vs número de cluster. No Elbow, você bate o olho e já define de maneira rápida, mas menos precisa, qual o número de cluster utilizar.
Eu consigo criar um cluster assim de clientes e conseguir saber quais clientes estao em qual cluster? EX: saber todos os Id's dos clientes do cluster 1
Muito bom, Jefferson!!! Parabéns pelo canal, pela técnica e didática!
Provavelmente o melhor canal de análise de dados e modelagem
Esse vídeo tem muita técnica envolvida, cabe maratonar as indicações na descrição para aperfeiçoamento, valeu novamente Jefferson!
Esse é o mestre dos mestres
Amei imenso, foi fantástico de certeza ❤️, mas eu gostaria que tu faça um vídeo fazendo um modelo de deteção e classificação de anomalias usando Tensor flow 🙏🏾
Bom dia Jefferson!! Muito bom esse canal que acabou de nascer. Traz muita informação e aplicação prática das técnicas.
Para iniciantes, como eu, super valioso.
Me permite uma sugestão? Se você puder "printar" alguns passos para vermos as saídas, creio que seja muito importante.
Por exemplo: quando você faz a redução de dimensionalidade usando o PCA, imprimir essa variável "pca" para vermos em que ela se transformou.
Um forte abraço e vida longa ao canal!
Que fantástico Jefferson 🎉... Temos um projeto na faculdade e preciso que me ajudes a disponibilidade de um conteúdo de um modelo de deteção completo por favor 🙏🏿
Jeferson, top. As always show. Congratulations friend.
Oi Claudio muito obrigado…valeu
Show, excelente ja vou me inscrever
muito bom!
Muito bom seu trabalho! Se puder outra hora fazer um video sobre criação de regras com arvores de decisão ou outros algoritmos e qual a melhor forma de aproveitar essas regras para um modelo.Vida longa ao canal!
Obrigado, que bom que está gostando. Tem uma playlist aqui no canal com alguns modelos de machine learning e tem alguns com árvore de decisão e alguns outros algoritmos
@@nerddosdados Estou maratonando, aprendendo sempre mais, valeu!
O treinamento foi bem feito, o modelo de classificação e detecção e mas desafiador que tal fazer um vídeo desses aqui no canal?
Tem um playlist de machine learning com modelos de classificação aqui no canal…vários modelos
Vídeo sensacional e muito didático. Eu tentei executar o algoritmo sem usar o PCA, mas houve uma série de erros que surgiram e estou resolvendo. Teria outro vídeo se o uso de PCA?
Olá vou fazer esse vídeo sem o PCA em breve posto aqui no canal
Cara, sensacional! Muito obrigado, cê tem contrubuído muito pro meu crescimento como cientista de dados!
Algumas perguntas:
Porque você colocou o número de componentes no PCA igual a 2? (n_components = 2) tem algum jeito de saber qts componentes colocar?
Nesse caso você usou normalização dos dados, ao invés de padronização. Normalizar é melhor do que padronizar, em termos de clusterização?
O uso de normalização dos dados deu diferença na resposta do Silhouete score? E da curva de Elbow?
Mais uma vez muito obrigado pelo vídeo e pela ajuda, vou baixar aqui o código e ir testando pra aprender mais. Abraço!
Olá,
No caso do PCA que eu utilizei 2 componentes eu usei mais para nível de demonstração e demonstrar uma possibilidade nova.
No caso do PCA como que eu geralmente utilizo. Primeiro ponto que eu utilizo o PCA somente quando tenho mais de 100 variáveis, quando tenho menos de 100 variáveis eu não costumo utilizar.
Em relação a saber a quantidade ideal de componentes o ideal é fazer testes mesmo. Por exemplo, se eu tiver um conjunto de dados com 300 variáveis eu faço testes pra ver o melhor resultado gerando diversos PCA´s. Gero com 30, 35, 40, 45, 50, 60, 70, 80, 90 e faço todo trabalho de criar um modelo e testar e avaliar cada um deles pra ver a melhor performance.
Nesse exemplo específico que utilizei a normalização ao invés da padronização foi porque de acordo com estes conjuntos de dados a normalização ficou melhor, o valor da silhuete score ficou mais alto que fazendo da padronização, mas para saber qual utilizar sempre é ideal fazer teste das duas formas, padronizando e normalizando.
Em relação ao número de cluster não gerou diferença, o melhor número de cluster foi 8 em todos os casos mesmo.
Mas tudo depende dos dados que temos, do conjunto de dados e do volume de dados também.
Daria também para fazer isso com ítens de uma usina, traçar um paralelo entre ítens e tentar buscar uma familiaridade entres os ítens, porém com códigos diferentes, e descrição também, só a semelhança no uso... E que está na base de dados, isso teria?
Seria possível fazer sim tudo vai depender dos dados que você tem pra trabalhar
Jeferson, qual seu entendimento sobre Data Leakage? Minha dúvida é: será que quando criamos novas variáveis (colunas), ou fazemos alguma engenharia antes de separar os dados de treino e teste não estou cometendo erro? Pelo que eu entendi basicamente, só devemos normalizar e padronizar os dados em cima dos dados originais, certo? Cara, estou lendo à respeito e surgiu essas dúvidas.
Oi Cláudio.
Quando fazemos uma engenharia de atributos devemos criar essas novas variáveis antes da padronização ou normalização, porque quando aplicamos essa normalização ou padronização também será necessário fazer nessas novas variáveis. E quando o modelo preditivo entra em produção por exemplo sempre precisará gerar essas novas variáveis.
Mas da mesma maneira que uma engenharia de atributos ajuda, dependendo do contexto e do cenário ela pode causar uma multicolinearidade (variável semelhante a uma atual e gerar uma correlação maior que o normal é prejudicar o modelo preditivo) isso pode as vezes causar um overfithing no modelo.
Exemplo: se você tem uma variável SALÁRIO e você cria uma nova variável como FAIXA SALARIAL, você precisará treinar e testar o modelo e ver qual variável ficará melhor, se você usar as duas….como elas correspondem a um mesmo tipo de informação isso pode te causar um Data Leakage ou um overfithing ou até mesmo uma performance baixa do modelo
@@nerddosdados Entendi. Muito obrigado pelo esclarecimento Jefferson. Ótima noite. Show,.velho.
Vi no Orange um rapaz dizendo que o Silhouette Score tem o mesmo obejetivo do Elbow Method. Fiquei em dúvida agora. Pra avaliar o modelo não seriam os métodos de Inertia e o Dunn Index?
Ola Raphael.
Na verdade todos esses métodos são métricas de avaliação do modelo, todos servem pra avaliar o modelo.
No Silhouette Score, você tem acesso aos valores de acordo com a quantidade de cluster, então retorna uma análise mais precisa do resultado vs número de cluster. No Elbow, você bate o olho e já define de maneira rápida, mas menos precisa, qual o número de cluster utilizar.
Eu consigo criar um cluster assim de clientes e conseguir saber quais clientes estao em qual cluster? EX: saber todos os Id's dos clientes do cluster 1
Sim da pra fazer um slide e filtrar e separar os ids
Boa tarde, vc presta serviço? Se sim, poderia entrar em contato.
Bom dia
Pode me chamar no e-mail comercial@nerddosdados.com.br
Didática fora do normal