PySpark - Aula 03 - Union / Joins / When - Otherwise / Collect

Поделиться
HTML-код
  • Опубликовано: 2 фев 2025

Комментарии • 56

  • @Adilmor1
    @Adilmor1 4 месяца назад +1

    Pra ajudar a galera que tá com preguiça de digitar, abaixo agrupamento de continente:
    europa = ['Sweden', 'Germany', 'France', 'Belgium', 'Croatia', 'Spain', 'Denmark', 'Iceland', 'Switzerland', 'England', 'Poland', 'Portugal', 'Serbia']
    asia = ['Russia', 'IR Iran', 'Korea Republic', 'Saudi Arabia', 'Japan']
    africa = ['Senegal', 'Nigeria', 'Morocco', 'Tunisia', 'Egypt']
    oceania = ['Australia']
    america_norte = ['Panama', 'Mexico', 'Costa Rica']
    america_sul = ['Argentina', 'Peru', 'Uruguay', 'Brazil', 'Colombia']

    • @datadevacademy
      @datadevacademy  4 месяца назад

      @@Adilmor1 boa Adilmor, muito obrigado pela ajuda. Fixei seu comentário, tudo bem?
      Muito obrigado pela contribuição e pelo incentivo. Abraço, bons estudos

  • @GuilhermeHenrique-sk1ww
    @GuilhermeHenrique-sk1ww 3 месяца назад +1

    Obrigado por essas aulas mano. Já comentei em seu vídeo anteriormente, mas novamente preciso te agradecer, essas 3 horas de aulas foram sem dúvidas uma ótima introdução mão na massa de Pyspark. ✌

    • @datadevacademy
      @datadevacademy  3 месяца назад

      @@GuilhermeHenrique-sk1ww só tenho a te agradecer, Guilherme. Muito obrigado pela atenção, de verdade

  • @coroquetes
    @coroquetes 2 года назад +1

    Ótimo material! Tô fazendo um "intensivão" aqui pra iniciar no meu primeiro projeto com Pyspark e essas aulas ajudaram demais! Valeu Renan!

    • @datadevacademy
      @datadevacademy  2 года назад +2

      Booora Caio. Muito obrigado por acompanhar e participar. Espero que te ajude de vdd.
      Vlw Caio, bons estudos.

  • @josediegojosediegol.nascim453
    @josediegojosediegol.nascim453 Год назад +2

    Cara, assisti todas as aulas de PySpark e achei-as excelentes. Parabéns pela didática, exemplos trazidos e o modo como abordou o tema. Espero que disponibilize novos vídeos. Agora que já curti as 3 aulas, irei me inscrever no canal. Desejo sucesso!

    • @datadevacademy
      @datadevacademy  Год назад +2

      Oi José Diego, tudo bem?
      Poxa, muito obrigado pelas palavras e pelo tempo dedicado assistindo os vídeos, de verdade, espero ter ajudado. Estive impossibilitado de fazer novos vídeos por um tempo, mas vou voltar a produzir conteúdo de pyspark e python em geral. Muito obrigado pelo incentivo a continuar fazendo vídeos, de verdade.

  • @maiullymend
    @maiullymend 4 месяца назад +1

    Gostei tanto das aulas que fiquei pensando: Já acabou?
    Obrigada por compartilhar o seu conhecimento 🙏🏽🙏🏽

    • @datadevacademy
      @datadevacademy  4 месяца назад

      @@maiullymend muito obrigado pelo apoio e pelo comentário de incentivo, de coração. Fico feliz que eu tenha ajudado de alguma maneira. Muito obrigado e bons estudos

  • @karinetakayama4030
    @karinetakayama4030 2 года назад +1

    Caracaaaa, muito bom bichooo!!!! Não para não para não para não !!!! Obrgada =D

    • @datadevacademy
      @datadevacademy  2 года назад

      Oi Karine, tudo bem?
      Pô, muuuuito obrigado por acompanhar e por participar.
      Logo logo eu faço mais vídeos de PySpark, desculpa pela demora em fazer coisa nova hahaha
      Vlw Karine, bons estudos.

  • @adrianobarbosa9738
    @adrianobarbosa9738 2 года назад +1

    Parabéns Renan!
    Não para não man!
    Continua essa playlist de pyspark!

    • @datadevacademy
      @datadevacademy  2 года назад

      Oi Adriano, tudo bem?
      Adriano, me desculpe pela demora em responder. Estava complicado no trabalho devido a algumas mudanças, mas acredito que agora eu consiga voltar a criar vídeos sobre PySpark. Muito obrigado por acompanhar e participar, de verdade. Bons estudos

    • @adrianobarbosa9738
      @adrianobarbosa9738 2 года назад +1

      @@datadevacademy tbm sou engenheiro de dados e sei como é importante ter esses vídeos quando estamos começando!
      Deus te abençoe!

  • @nickolasrodrigues9412
    @nickolasrodrigues9412 2 года назад +2

    Melhor que muita aula de faculdade.

  • @TheQuildes
    @TheQuildes Год назад +1

    Grande Renan ! Didáctica em dia , aulas notas 1000! Aprendi muito com estas aulas de Pyspark! Show de Bola ! Continua esta playliste ai ersss!

    • @datadevacademy
      @datadevacademy  11 месяцев назад +1

      Opa, tudo bem? Po cara, agradeço de verdade pelas palavras. Essa semana sai um vídeo novo de PySpark, uma análise na prática. Vou tentar trazer vídeos com mais frequência. Agradeço pelo comentário, de coração, é isso que incentiva a continuar produzindo. Muito obrigado e bons estudos 🙏

  • @gilbertos.s1376
    @gilbertos.s1376 2 года назад +2

    Nota 1000 pelas aulas, excelente explicações.
    Por favor não pare, isso motiva a nos envolvermos e aprofundarmos na Eng. de Dados, ahh poderia nos contar sobre problemas do dia-a-dia de um Eng. de dados, problemas de rotinas mesmo, ajudará a galera a se posicionar diante dos desafios🙂

    • @datadevacademy
      @datadevacademy  2 года назад

      Oi Gilberto, tudo bem?
      Boa tarde.
      Cara, só tenho a agradecer por participar e comentar.
      Estava meio ausente, mas assim ué conseguir, farei outro vídeo e essa será a temática, algo mais do dia-a-dia.
      Agradeço por participar, Gilberto.
      Bons estudos.

    • @gilbertos.s1376
      @gilbertos.s1376 2 года назад +1

      @@datadevacademy Obrigado! Joins agora são mamão com açucar hahhaha!

  • @kellyyamada8024
    @kellyyamada8024 2 года назад +1

    Ótima aula! Obrigada!

    • @datadevacademy
      @datadevacademy  2 года назад

      Kelly, só tenho a agradecer por você participar e acompanhar os vídeos, de verdade. Muuuuuuuuito obrigado e bons estudos.

  • @tribeiro21
    @tribeiro21 2 года назад +1

    Parabéns Renan! Excelente didática e conteúdo!!
    Estou compartilhando com todos que conheço!
    No aguardo para mais vídeos!

    • @datadevacademy
      @datadevacademy  2 года назад

      Po Thiago, só tenho a agradecer pelo empenho em participar e compartilhar os vídeos, de verdade mesmo muito obrigado.
      Estive ausente devido à mudanças no trabalho, mas agora está estabilizando e vou conseguir voltar a produzir vídeos. Muito obrigado por acompanhar e bons estudos.

  • @matheusluiz6
    @matheusluiz6 Год назад +1

    Nossa a melhor didática que ja vi sobre o assunto. Você poderia fazer um curso na Udemy. Parabéns pelos vídeos!!!!!

    • @datadevacademy
      @datadevacademy  Год назад +2

      Matheus, muuuito obrigado pelas palavras, de verdade.
      Esse tipo de comentário incentiva demais. Muito obrigado mesmo.
      Estou fazendo um novo vídeo de análise de dados com PySpark, vou colocar no ar assim que possível.
      Mto obrigado e bons estudos.

  • @emersoncosta4168
    @emersoncosta4168 Год назад +1

    Muito bom!

    • @datadevacademy
      @datadevacademy  Год назад

      Muito obrigado pela força, Emerson.
      Abraço e bons estudos. 🙏

  • @RafaelAlmeida-cb3sq
    @RafaelAlmeida-cb3sq Год назад

    Fantastic thank you for taking your time

    • @datadevacademy
      @datadevacademy  Год назад

      I appreciate it, Rafael. Thank you so much for your attention. Have a nice day.

  • @nikuball3329
    @nikuball3329 2 года назад

    Parabéns pelas aulas, estou acompanhando e esperando as próximas!!

  • @renansilvaramos5857
    @renansilvaramos5857 2 года назад +2

    Chefe suas aulas Estão excelentes. Vou indicar para algumas pessoas
    . Gostaria que você mostrasse uma aula falando sobre json.. algumas manipulações em json seria muito top. Tem pouco conteúdo sobre isso na rede..
    Tbm existe pouco conteudo sobre Hdfs com spark

    • @datadevacademy
      @datadevacademy  2 года назад +1

      Oi Renan, tudo bem?
      Muito obrigado pelas dicas, vou ver o que sei sobre isso e como posso criar um vídeo tentando auxiliar a galera. Muito obrigado mesmo pelo conselho. E obrigado por participar, de verdade. Bons estudos, chará.

  • @rafayyh9536
    @rafayyh9536 2 года назад

    Ótimo vídeo!

  • @helitonribeiroferreira6948
    @helitonribeiroferreira6948 2 года назад

    Parabéns pelo conteúdo, continue os videos, abraço.

    • @datadevacademy
      @datadevacademy  2 года назад

      Heliton, obrigado por assistir e acompanhar... Bons estudos

  • @caiobottieri5327
    @caiobottieri5327 2 года назад

    Ótimo conteúdo, e muito bem explicado. Parabéns 👏

    • @datadevacademy
      @datadevacademy  2 года назад

      Muuito obrigado por acompanhar e participar, Caio

  • @julianachang468
    @julianachang468 2 года назад

    Parabéns!!
    Ótima aula!

  • @josepaulo9054
    @josepaulo9054 2 года назад +1

    Renan,
    Boa noite,
    Queria tirar uma duvida a respeito do Collect.
    A duvida.
    Eu tenho dois dataframe.
    Primeiro de Nota Fiscal, onde tenho 50K Linhas e usando o Filter,
    quero trazer apenas as NF de São Paulo, o retorno será de 10K de notas fiscais.
    Na sequencia quero colocar o nº de cada uma dessas 10.000 NF em uma collect.
    Depois quando for gerar o dataframe de Itens de notas fiscais, quero trazer apenas os itens das NF que constam em uma lista gerada no for feito no collect e
    vou fazer isso no Filter com In ListaCollectNfSaoPaulo e com isso vou trazer os itens de NF das 10.000 Nf do Dataframe de NF.
    Faz algum sentido isso que falei e se dá para ser implementado.
    Parabens pelo seu canal, excelentes conteudos e principalmente por ser em Português, pois o idioma é uma tremenda barreira.
    Grato.

    • @datadevacademy
      @datadevacademy  2 года назад +1

      Oi José Paulo, tudo bem?
      Boa noite.
      José, me desculpe pela demora em responder, espero que ainda consiga ser útil.
      Pelo que entendi, você precisa filtrar só SP, depois extrair os números das NF e depois exibir apenas os valores baseados em uma lista específica, é isso?
      Se for, é simples de resolver.
      Você pode criar uma lista nova, com as NF que você precisa exibir, vamos chamar de NF_exibir.
      Dentro dessa lista, você vai colocar todas as NF que vc quer que apareça (por exemplo, NF_exibir = [7, 9, 10]).
      Depois disso vc vai usar o filtro (filter ou where, tanto faz):
      df.where(df.coluna_NF_original.isin(NF_exibir)).show()
      Acredito que essa seja a maneira mais fácil de resolver.
      Caso eu tenha entendido errado, me manda mensagem novamente que dessa vez eu prometo que respondo mais rápido hahahaha.
      Obs: caso você ainda queira usar o Collect, você pode usar depois do filtro, que já vai "limpar" seus dados.
      Obrigado, José.
      Boa sorte e espero ter ajudado.

  • @edneyelias3689
    @edneyelias3689 2 года назад +1

    Excelente conteudo Renan, parabéns pelos videos, quando vem o proximo ?
    Pretende fazer algum curso de spark ?

    • @datadevacademy
      @datadevacademy  2 года назад

      Oi Edney, tudo bem?
      Me desculpe pela demora em responder. Eu estava bem ocupado com coisas no trabalho, mas agora está se estabilizando e vou conseguir voltar a criar conteúdo para o canal.
      Não sei se tenho interesse em criar nenhum conteúdo pago, acredito que vou continuar criando pequenas aulas como essas e ir postando no RUclips, pra ajudar toda a comunidade.
      Muito obrigado por participar e acompanhar.

  • @helitonribeiroferreira6948
    @helitonribeiroferreira6948 2 года назад

    Olá Renan, vc atua como cientista ou engenheiro? Grato.

    • @datadevacademy
      @datadevacademy  2 года назад

      Oi Heliton, tudo bem?
      Então, na verdade eu não estou atuando em TI no momento.
      Acabei de pegar meu certificado de Engenharia de Dados e agora estou trabalhando em alguns projetos para portifólio, mas não estou atuando profissionalmente por enquanto.

    • @helitonribeiroferreira6948
      @helitonribeiroferreira6948 2 года назад

      @@datadevacademy Que legal, estou estudando sql, pyspark e irei começar estudar cloud, acho que para engenharia é uma boa base

    • @datadevacademy
      @datadevacademy  2 года назад

      @@helitonribeiroferreira6948 é exatamente isso mesmo.
      Semana q vem, vou fazer um projeto usando Cloud (Google).
      No Coursera tem alguns cursos gratuitos de pipeline, usando Dataprep e Dataproc, da uma pesquisada sobre isso. O Dataprep te poupa um bom tempo em ETL.

    • @helitonribeiroferreira6948
      @helitonribeiroferreira6948 2 года назад

      @@datadevacademy Opa, obrigado, chegou a tirar alguma certificação da GCP?

    • @datadevacademy
      @datadevacademy  2 года назад

      @@helitonribeiroferreira6948 estou estudando pra isso agora kkkk... Como é um coisa um pouco mais cara, não quero desperdiçar, entende? Quero fazer a prova quando estiver 100% certo que vou passar.