Mão no código como usar o Spark com pyspark

Поделиться
HTML-код
  • Опубликовано: 30 ноя 2024

Комментарии • 101

  • @Codifike
    @Codifike  18 дней назад

    Trabalhe com Engenharia de Dados:
    metododatapro.codifike.com.br

  • @yraion0
    @yraion0 2 года назад +2

    Muito bom mesmo, e é como ver algo difícil parecer que você já sabe e conhece a tempos. Parabéns pela didática.

  • @darkhill
    @darkhill 4 месяца назад +1

    Muito bom. Esclareceu muita coisa e ainda mostrou uma forma de trabalhar com pyspark diferente do que aprendi.

    • @Codifike
      @Codifike  3 месяца назад

      Que bom que ajudou

  • @JoaoVitor-os5hh
    @JoaoVitor-os5hh 2 года назад +3

    Parece tão fácil depois desse vídeo. Parabéns!!!

    • @Codifike
      @Codifike  2 года назад +1

      Obrigado João

  • @bonfimLucas
    @bonfimLucas 3 года назад +2

    Vídeos excelentes!
    Obrigado por compartilhar com a comunidade

  • @LuhDias03
    @LuhDias03 3 месяца назад +1

    Muito bom! Aula perfeita! Obrigada

  • @oiwelder
    @oiwelder 3 года назад +1

    Bacana, bem didático e prático.

  • @gustavodocarmo7239
    @gustavodocarmo7239 2 года назад

    Excelente! Coisa rara assistir uma aula e não sentir vontade de pular, ta de parabens

    • @Codifike
      @Codifike  2 года назад

      Obrigado Gustabo

  • @irioam
    @irioam 2 года назад

    tudo fica mais simples quando vc explica... ótimo conteúdo... se pudesse trazer um exemplo do spark realizando o processamento paralelo... que está muito no hype !!! abraço!

  • @eduard0ml
    @eduard0ml 2 года назад +3

    Prof poderia ensinar a configurar o PySpark no VS code ??? em alguma video tutorial

    • @Codifike
      @Codifike  Год назад +2

      Sugestão anotada!

  • @etgcrog1
    @etgcrog1 3 года назад +3

    amei!!

  • @ObrGerson
    @ObrGerson Год назад

    Excelente explicação de comandos simples e poderosos. Obrigado

  • @SouDeveloper
    @SouDeveloper 6 месяцев назад +1

    valeu vei peguei uma vaga numa multinacional como analista de dados BIG DATA, vou trabalhar com pyspark mas nunca tinha visto essa biblioteca

    • @pedrohentec
      @pedrohentec 3 месяца назад

      E como tu tá fazendo meu caro? Sou estagiário, e estou com uma task que está me tirando o sono ahahha

    • @Codifike
      @Codifike  3 месяца назад

      Sucesso!

  • @lucasrocha3149
    @lucasrocha3149 Год назад

    +1 escrito, estou trabalhando com stack azure, utilizando Databricks para transformação de dados em camadas delta no delta lake, excelente conteúdo, parabéns

  • @Anselmme
    @Anselmme Год назад

    Muito bom Fabrício. Parabéns e obrigado!

  • @robsonmedeiros6657
    @robsonmedeiros6657 Год назад +1

    Excelente conteúdo. Parabéns!!!

  • @marcosleno3561
    @marcosleno3561 2 года назад

    Excelente, só não achei no kagle e no imdb os arquivos utilizados.

  • @MarcosSarges
    @MarcosSarges 10 месяцев назад +1

    Minha dúvida é… um sgbd tipo o Postgres como data lake ? Ou tudo bem tbm fazer isso?

  • @robertobr234
    @robertobr234 2 года назад +1

    Sensacional!

    • @Codifike
      @Codifike  2 года назад

      Obrigado Roberto

  • @iagobuche_leticia
    @iagobuche_leticia 2 года назад

    ótimo conteúdo! por favor, traga mais vivencias usando pyspark

    • @Codifike
      @Codifike  2 года назад

      Obrigado Letícia. 😀

  • @dannielfisico2666
    @dannielfisico2666 2 года назад

    PARABÉNS pelo conteúdo. Acho que seria se disponibilizasse as bases de dados ou os links, em vez de ficarmos procurando, aí a gente teria como ficar fazendo e acompanhando as explicações.

    • @Codifike
      @Codifike  2 года назад

      Oi Danniel, obrigado pelo feedback. Vou colocar

  • @MeuAmigoDeus
    @MeuAmigoDeus 2 года назад

    Muito bom! Excelente conteúdo!

  • @milzaruiz3065
    @milzaruiz3065 2 года назад +1

    Excelente video!!!

  • @andrearaujo113
    @andrearaujo113 Год назад

    Man, você poderia fazer vídeo sobre Datavault ? O que eu encontrei e muito básico

  • @rafaelcampos7799
    @rafaelcampos7799 Год назад

    Excelente. Vc tem alguma aula explicando como obter o conjunto de dados de banco Oracle?

    • @Codifike
      @Codifike  Год назад +1

      Tenta isso:
      Antes de começar, certifique-se de ter o driver JDBC para Oracle. Você pode baixá-lo do site oficial da Oracle. Uma vez baixado, coloque o arquivo .jar em um local acessível.
      Ao iniciar sua sessão PySpark, certifique-se de adicionar o driver JDBC ao classpath. Isso pode ser feito usando a opção --jars:.
      pyspark --jars /caminho/para/o/driver/ojdbc8.jar
      from pyspark.sql import SparkSession
      spark = SparkSession.builder.appName("OracleAccess").getOrCreate()
      oracle_url = "jdbc:oracle:thin:@//HOST:PORT/SID"
      oracle_properties = {
      "user": "SEU_USUARIO",
      "password": "SUA_SENHA",
      "driver": "oracle.jdbc.driver.OracleDriver"
      }
      df = spark.read.jdbc(oracle_url, "NOME_DA_TABELA", properties=oracle_properties)
      df.show()
      Substitua HOST, PORT, SID, SEU_USUARIO, SUA_SENHA e NOME_DA_TABELA pelos valores apropriados para sua configuração
      Se você fizer alterações ou análises e quiser gravar os resultados de volta no Oracle, pode usar o método write.jdbc:
      df.write.jdbc(oracle_url, "NOME_DA_TABELA_DESTINO", properties=oracle_properties, mode="overwrite")

  • @infinitycode2793
    @infinitycode2793 Год назад

    Parabéns pelo trabalho!

  • @carlossil3895
    @carlossil3895 7 месяцев назад

    esse cara é dezz....FAZ CURSO..E COLOCA NA UDEMY...

    • @Codifike
      @Codifike  7 месяцев назад

      Obrigado

    • @Codifike
      @Codifike  3 месяца назад

      Ja tem o curso, alias tem vários . Dá uma olhada aqui: codifike.com.br/loja/

  • @MatheusOrnelas777
    @MatheusOrnelas777 Год назад

    muito obrigado e muito sucesso

    • @Codifike
      @Codifike  Год назад

      Oi Mateus se quiser se aprofundar temos a formação Spark neste link : codifike.com.br/formacao-spark-full/

  • @dcassis
    @dcassis 5 месяцев назад +1

    Excelente video

  • @ARJ673
    @ARJ673 8 месяцев назад

    Pode compartilhar o link para este colab?

  • @seya2183
    @seya2183 2 года назад

    Excelente!

  • @jogenio
    @jogenio Год назад

    Muito TOP! Parabens!

  • @thupangas
    @thupangas 2 года назад +1

    cara ensina fazer lista invertida em py spark com arquivos de texto, preciso aprender a fazer isso para criar indices e dicionais

    • @Codifike
      @Codifike  2 года назад

      Sugestão anotada!

  • @patriciadelima_
    @patriciadelima_ 2 года назад

    Excelente vídeo!

  • @antoniorochaneto
    @antoniorochaneto 2 года назад

    Que top! Parabens

  • @tiagomizuno1226
    @tiagomizuno1226 2 года назад

    Parabens pelo conteudo!

  • @RobertoSilva-yv7yy
    @RobertoSilva-yv7yy 6 месяцев назад

    muito bom

  • @pedroar9
    @pedroar9 4 месяца назад

    Muito bom, deu uma ótima clareada sobre o assunto.
    Não teria como incluir o link para o mesmo arquivo que utilizou nos exemplos?

    • @Codifike
      @Codifike  3 месяца назад

      datasets.imdbws.com/

  • @christiangoncalves7666
    @christiangoncalves7666 2 года назад

    Excelente video, mas gostaria de tirar uma duvida... Em SQL posso analisar o plano de execução e reescrever a consulta ou criar indices... Como esse "tuning" é realizado no PySpark, além da criação de RDs?

    • @Codifike
      @Codifike  2 года назад +1

      Vc pode usar o explain

  • @hjbramos
    @hjbramos 2 года назад

    Excelente!!!

  • @andrepressendo7842
    @andrepressendo7842 2 года назад

    Muito bom!!!!

  • @PedroSantos-gc7zt
    @PedroSantos-gc7zt 2 года назад

    ce eh o brabo pai

  • @EloiiG
    @EloiiG Год назад

    Oi Fabricio, excelente conteúdo, parabéns.
    Tenho uma duvida:
    quero salvar o resultado do valor em outra variável sem o cabeçalho, é possível?

    • @Codifike
      @Codifike  Год назад

      Como assim? Poderia dar um exemplo?

  • @DanielBezerra1874523472645224
    @DanielBezerra1874523472645224 2 года назад

    Gostaria de saber como faz para funcionar na maquina local usando o vs code.

    • @Codifike
      @Codifike  2 года назад

      Teria que instalar o.dpark.na sua máquina. As vezes dá erro por isso prefiro o notebook

  •  2 года назад +1

    Boa noite pessoal, alguém sabe onde conseguir esses datasets do vídeo? desde já, agradeço.

    • @Codifike
      @Codifike  2 года назад

      Pode pegar no site imdb

  • @gabrielevangelista4956
    @gabrielevangelista4956 Год назад

    No Google Colab eu poço simplesmente importar o pandas, começar codar em python e está tudo ok. A minha dúvida é, no caso do spark, quando eu faço a instalação dele no cluster, o que muda do primeiro exemplo que dei? Como é a forma de processar as coisas de ambos? Tudo aquilo que os olhos nossos não veem

    • @Codifike
      @Codifike  Год назад +4

      Primeiro, você precisa ter um cluster Spark configurado. Isso pode ser um cluster em nuvem (como AWS EMR, Azure HDInsight, Google Cloud Dataproc) ou um cluster on-premise.
      Ao criar um objeto SparkSession em seu código, você especifica o modo de execução do cluster. Em vez de master('local'), você usará algo como master('yarn'), master('k8s'), ou master('mesos'), dependendo do gerenciador de cluster que você está usando.
      Por exemplo:
      from pyspark.sql import SparkSession
      spark = SparkSession.builder \
      .appName("MeuAppSpark") \
      .master("yarn") \
      .getOrCreate()
      Para você submeter seu código Spark (geralmente um script Python, Scala ou Java) ao cluster, é feito através da linha de comando usando spark-submit, ou através de interfaces de usuário fornecidas por plataformas de cluster em nuvem.

  • @JPGamer
    @JPGamer 3 месяца назад +1

    os dataset do imdb mudaram estão com mais niveis, o que da pra brincar mais

    • @Codifike
      @Codifike  3 месяца назад

      Show. obrigado por avisar

  • @JoaoPepe10Gamer
    @JoaoPepe10Gamer Год назад +1

    Uma duvida, como eu faço tudo isso que vc fez ai na minha máquina, como configuro no meu Windowns

  • @lucasarruda2824
    @lucasarruda2824 Год назад +2

    Quando vou deszipar o spark aparece essa mensagem: gzip: stdin: not in gzip format
    tar: Child returned status 1
    tar: Error is not recoverable: exiting now
    algúem sabe porque?

    • @Codifike
      @Codifike  Год назад

      Parece que não está baixando o arquivo zipado

    • @ewertonrodrigues4585
      @ewertonrodrigues4585 Год назад

      @@Codifike estou tendo o mesmo problema. alguma sugestão pf?

    • @Codifike
      @Codifike  Год назад +1

      Baixe o arquivo .tar.gz da página do Spark

    • @matheus_19625
      @matheus_19625 8 месяцев назад +4

      Não sei se você conseguiu resolver, mas eu estava com o mesmo problema. Eu percebi que algumas coisas mudaram desde o lançamento do vídeo; no caso agora você tem que clicar no link e ele lhe redicionará para a página do *Apache* e de lá que você tem que baixar.

    • @JPGamer
      @JPGamer 3 месяца назад +1

      @@matheus_19625 valeu manin, tinha travado nisso tbm

  • @marcelo9223
    @marcelo9223 Год назад

    onde baixo os arquivos do imdb?

    • @Codifike
      @Codifike  Год назад

      www.google.com/url?sa=t&source=web&rct=j&url=m.imdb.com/&ved=2ahUKEwj98Iny_r3-AhW6K7kGHV9NDvcQFnoECAgQAQ&usg=AOvVaw3tpEdgQw6c-ab6J9EhGeiy

  • @leandrosantanna1565
    @leandrosantanna1565 3 года назад

    Boa tarde Fabricio!
    Como vai?
    Estou com a pretensao de tirar meu certificado do databricks associate, indica algum conteudo para estudo?
    Obrigado pelo conteudo!

    • @Codifike
      @Codifike  3 года назад +2

      Oi Leandro, oi melhor e da databricks academy, mas é muito caro. Tens uns muito bons na coursera,

    • @leandrosantanna1565
      @leandrosantanna1565 3 года назад

      @@Codifike poxa, vlws mesmo pela dica! Vou dar uma fuçada lá