tudo fica mais simples quando vc explica... ótimo conteúdo... se pudesse trazer um exemplo do spark realizando o processamento paralelo... que está muito no hype !!! abraço!
+1 escrito, estou trabalhando com stack azure, utilizando Databricks para transformação de dados em camadas delta no delta lake, excelente conteúdo, parabéns
PARABÉNS pelo conteúdo. Acho que seria se disponibilizasse as bases de dados ou os links, em vez de ficarmos procurando, aí a gente teria como ficar fazendo e acompanhando as explicações.
Tenta isso: Antes de começar, certifique-se de ter o driver JDBC para Oracle. Você pode baixá-lo do site oficial da Oracle. Uma vez baixado, coloque o arquivo .jar em um local acessível. Ao iniciar sua sessão PySpark, certifique-se de adicionar o driver JDBC ao classpath. Isso pode ser feito usando a opção --jars:. pyspark --jars /caminho/para/o/driver/ojdbc8.jar from pyspark.sql import SparkSession spark = SparkSession.builder.appName("OracleAccess").getOrCreate() oracle_url = "jdbc:oracle:thin:@//HOST:PORT/SID" oracle_properties = { "user": "SEU_USUARIO", "password": "SUA_SENHA", "driver": "oracle.jdbc.driver.OracleDriver" } df = spark.read.jdbc(oracle_url, "NOME_DA_TABELA", properties=oracle_properties) df.show() Substitua HOST, PORT, SID, SEU_USUARIO, SUA_SENHA e NOME_DA_TABELA pelos valores apropriados para sua configuração Se você fizer alterações ou análises e quiser gravar os resultados de volta no Oracle, pode usar o método write.jdbc: df.write.jdbc(oracle_url, "NOME_DA_TABELA_DESTINO", properties=oracle_properties, mode="overwrite")
Excelente video, mas gostaria de tirar uma duvida... Em SQL posso analisar o plano de execução e reescrever a consulta ou criar indices... Como esse "tuning" é realizado no PySpark, além da criação de RDs?
No Google Colab eu poço simplesmente importar o pandas, começar codar em python e está tudo ok. A minha dúvida é, no caso do spark, quando eu faço a instalação dele no cluster, o que muda do primeiro exemplo que dei? Como é a forma de processar as coisas de ambos? Tudo aquilo que os olhos nossos não veem
Primeiro, você precisa ter um cluster Spark configurado. Isso pode ser um cluster em nuvem (como AWS EMR, Azure HDInsight, Google Cloud Dataproc) ou um cluster on-premise. Ao criar um objeto SparkSession em seu código, você especifica o modo de execução do cluster. Em vez de master('local'), você usará algo como master('yarn'), master('k8s'), ou master('mesos'), dependendo do gerenciador de cluster que você está usando. Por exemplo: from pyspark.sql import SparkSession spark = SparkSession.builder \ .appName("MeuAppSpark") \ .master("yarn") \ .getOrCreate() Para você submeter seu código Spark (geralmente um script Python, Scala ou Java) ao cluster, é feito através da linha de comando usando spark-submit, ou através de interfaces de usuário fornecidas por plataformas de cluster em nuvem.
Quando vou deszipar o spark aparece essa mensagem: gzip: stdin: not in gzip format tar: Child returned status 1 tar: Error is not recoverable: exiting now algúem sabe porque?
Não sei se você conseguiu resolver, mas eu estava com o mesmo problema. Eu percebi que algumas coisas mudaram desde o lançamento do vídeo; no caso agora você tem que clicar no link e ele lhe redicionará para a página do *Apache* e de lá que você tem que baixar.
Boa tarde Fabricio! Como vai? Estou com a pretensao de tirar meu certificado do databricks associate, indica algum conteudo para estudo? Obrigado pelo conteudo!
Trabalhe com Engenharia de Dados:
metododatapro.codifike.com.br
Muito bom mesmo, e é como ver algo difícil parecer que você já sabe e conhece a tempos. Parabéns pela didática.
Obrigado
Muito bom. Esclareceu muita coisa e ainda mostrou uma forma de trabalhar com pyspark diferente do que aprendi.
Que bom que ajudou
Parece tão fácil depois desse vídeo. Parabéns!!!
Obrigado João
Vídeos excelentes!
Obrigado por compartilhar com a comunidade
Obrigado Lucas
Muito bom! Aula perfeita! Obrigada
Bacana, bem didático e prático.
Obrigado
Excelente! Coisa rara assistir uma aula e não sentir vontade de pular, ta de parabens
Obrigado Gustabo
tudo fica mais simples quando vc explica... ótimo conteúdo... se pudesse trazer um exemplo do spark realizando o processamento paralelo... que está muito no hype !!! abraço!
Boa sugestão!
Prof poderia ensinar a configurar o PySpark no VS code ??? em alguma video tutorial
Sugestão anotada!
amei!!
Valeu Eduardo
Eu Amei também, Edu!!!
Excelente explicação de comandos simples e poderosos. Obrigado
Que bom que gostou
valeu vei peguei uma vaga numa multinacional como analista de dados BIG DATA, vou trabalhar com pyspark mas nunca tinha visto essa biblioteca
E como tu tá fazendo meu caro? Sou estagiário, e estou com uma task que está me tirando o sono ahahha
Sucesso!
+1 escrito, estou trabalhando com stack azure, utilizando Databricks para transformação de dados em camadas delta no delta lake, excelente conteúdo, parabéns
Maravilha
Muito bom Fabrício. Parabéns e obrigado!
Excelente conteúdo. Parabéns!!!
Obrigado
Excelente, só não achei no kagle e no imdb os arquivos utilizados.
Minha dúvida é… um sgbd tipo o Postgres como data lake ? Ou tudo bem tbm fazer isso?
Sensacional!
Obrigado Roberto
ótimo conteúdo! por favor, traga mais vivencias usando pyspark
Obrigado Letícia. 😀
PARABÉNS pelo conteúdo. Acho que seria se disponibilizasse as bases de dados ou os links, em vez de ficarmos procurando, aí a gente teria como ficar fazendo e acompanhando as explicações.
Oi Danniel, obrigado pelo feedback. Vou colocar
Muito bom! Excelente conteúdo!
Obrigado 😃
Excelente video!!!
Obrigado
Man, você poderia fazer vídeo sobre Datavault ? O que eu encontrei e muito básico
Excelente. Vc tem alguma aula explicando como obter o conjunto de dados de banco Oracle?
Tenta isso:
Antes de começar, certifique-se de ter o driver JDBC para Oracle. Você pode baixá-lo do site oficial da Oracle. Uma vez baixado, coloque o arquivo .jar em um local acessível.
Ao iniciar sua sessão PySpark, certifique-se de adicionar o driver JDBC ao classpath. Isso pode ser feito usando a opção --jars:.
pyspark --jars /caminho/para/o/driver/ojdbc8.jar
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("OracleAccess").getOrCreate()
oracle_url = "jdbc:oracle:thin:@//HOST:PORT/SID"
oracle_properties = {
"user": "SEU_USUARIO",
"password": "SUA_SENHA",
"driver": "oracle.jdbc.driver.OracleDriver"
}
df = spark.read.jdbc(oracle_url, "NOME_DA_TABELA", properties=oracle_properties)
df.show()
Substitua HOST, PORT, SID, SEU_USUARIO, SUA_SENHA e NOME_DA_TABELA pelos valores apropriados para sua configuração
Se você fizer alterações ou análises e quiser gravar os resultados de volta no Oracle, pode usar o método write.jdbc:
df.write.jdbc(oracle_url, "NOME_DA_TABELA_DESTINO", properties=oracle_properties, mode="overwrite")
Parabéns pelo trabalho!
Obrigado
esse cara é dezz....FAZ CURSO..E COLOCA NA UDEMY...
Obrigado
Ja tem o curso, alias tem vários . Dá uma olhada aqui: codifike.com.br/loja/
muito obrigado e muito sucesso
Oi Mateus se quiser se aprofundar temos a formação Spark neste link : codifike.com.br/formacao-spark-full/
Excelente video
Obrigado
Pode compartilhar o link para este colab?
Excelente!
Obrigado 😃
Muito TOP! Parabens!
Obrigado
cara ensina fazer lista invertida em py spark com arquivos de texto, preciso aprender a fazer isso para criar indices e dicionais
Sugestão anotada!
Excelente vídeo!
Obrigado
Que top! Parabens
Obrigado
Parabens pelo conteudo!
Obrigado
muito bom
Muito bom, deu uma ótima clareada sobre o assunto.
Não teria como incluir o link para o mesmo arquivo que utilizou nos exemplos?
datasets.imdbws.com/
Excelente video, mas gostaria de tirar uma duvida... Em SQL posso analisar o plano de execução e reescrever a consulta ou criar indices... Como esse "tuning" é realizado no PySpark, além da criação de RDs?
Vc pode usar o explain
Excelente!!!
Obrigado
Muito bom!!!!
Obrigado
ce eh o brabo pai
Obrigado 😂
Oi Fabricio, excelente conteúdo, parabéns.
Tenho uma duvida:
quero salvar o resultado do valor em outra variável sem o cabeçalho, é possível?
Como assim? Poderia dar um exemplo?
Gostaria de saber como faz para funcionar na maquina local usando o vs code.
Teria que instalar o.dpark.na sua máquina. As vezes dá erro por isso prefiro o notebook
Boa noite pessoal, alguém sabe onde conseguir esses datasets do vídeo? desde já, agradeço.
Pode pegar no site imdb
No Google Colab eu poço simplesmente importar o pandas, começar codar em python e está tudo ok. A minha dúvida é, no caso do spark, quando eu faço a instalação dele no cluster, o que muda do primeiro exemplo que dei? Como é a forma de processar as coisas de ambos? Tudo aquilo que os olhos nossos não veem
Primeiro, você precisa ter um cluster Spark configurado. Isso pode ser um cluster em nuvem (como AWS EMR, Azure HDInsight, Google Cloud Dataproc) ou um cluster on-premise.
Ao criar um objeto SparkSession em seu código, você especifica o modo de execução do cluster. Em vez de master('local'), você usará algo como master('yarn'), master('k8s'), ou master('mesos'), dependendo do gerenciador de cluster que você está usando.
Por exemplo:
from pyspark.sql import SparkSession
spark = SparkSession.builder \
.appName("MeuAppSpark") \
.master("yarn") \
.getOrCreate()
Para você submeter seu código Spark (geralmente um script Python, Scala ou Java) ao cluster, é feito através da linha de comando usando spark-submit, ou através de interfaces de usuário fornecidas por plataformas de cluster em nuvem.
os dataset do imdb mudaram estão com mais niveis, o que da pra brincar mais
Show. obrigado por avisar
Uma duvida, como eu faço tudo isso que vc fez ai na minha máquina, como configuro no meu Windowns
Quando vou deszipar o spark aparece essa mensagem: gzip: stdin: not in gzip format
tar: Child returned status 1
tar: Error is not recoverable: exiting now
algúem sabe porque?
Parece que não está baixando o arquivo zipado
@@Codifike estou tendo o mesmo problema. alguma sugestão pf?
Baixe o arquivo .tar.gz da página do Spark
Não sei se você conseguiu resolver, mas eu estava com o mesmo problema. Eu percebi que algumas coisas mudaram desde o lançamento do vídeo; no caso agora você tem que clicar no link e ele lhe redicionará para a página do *Apache* e de lá que você tem que baixar.
@@matheus_19625 valeu manin, tinha travado nisso tbm
onde baixo os arquivos do imdb?
www.google.com/url?sa=t&source=web&rct=j&url=m.imdb.com/&ved=2ahUKEwj98Iny_r3-AhW6K7kGHV9NDvcQFnoECAgQAQ&usg=AOvVaw3tpEdgQw6c-ab6J9EhGeiy
Boa tarde Fabricio!
Como vai?
Estou com a pretensao de tirar meu certificado do databricks associate, indica algum conteudo para estudo?
Obrigado pelo conteudo!
Oi Leandro, oi melhor e da databricks academy, mas é muito caro. Tens uns muito bons na coursera,
@@Codifike poxa, vlws mesmo pela dica! Vou dar uma fuçada lá