Mão no código como usar o Spark com pyspark

Codifike

Просмотров 27 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 30 ноя 2024

Комментарии • 101

@Codifike 18 дней назад
Trabalhe com Engenharia de Dados:
metododatapro.codifike.com.br
@yraion0 2 года назад ⁺²
Muito bom mesmo, e é como ver algo difícil parecer que você já sabe e conhece a tempos. Parabéns pela didática.
@Codifike 2 года назад ⁺¹
Obrigado
@darkhill 4 месяца назад ⁺¹
Muito bom. Esclareceu muita coisa e ainda mostrou uma forma de trabalhar com pyspark diferente do que aprendi.
@Codifike 3 месяца назад
Que bom que ajudou
@JoaoVitor-os5hh 2 года назад ⁺³
Parece tão fácil depois desse vídeo. Parabéns!!!
@Codifike 2 года назад ⁺¹
Obrigado João
@bonfimLucas 3 года назад ⁺²
Vídeos excelentes!
Obrigado por compartilhar com a comunidade
@Codifike 3 года назад
Obrigado Lucas
@LuhDias03 3 месяца назад ⁺¹
Muito bom! Aula perfeita! Obrigada
@oiwelder 3 года назад ⁺¹
Bacana, bem didático e prático.
@Codifike 3 года назад
Obrigado
@gustavodocarmo7239 2 года назад
Excelente! Coisa rara assistir uma aula e não sentir vontade de pular, ta de parabens
@Codifike 2 года назад
Obrigado Gustabo
@irioam 2 года назад
tudo fica mais simples quando vc explica... ótimo conteúdo... se pudesse trazer um exemplo do spark realizando o processamento paralelo... que está muito no hype !!! abraço!
@Codifike 2 года назад
Boa sugestão!
@eduard0ml 2 года назад ⁺³
Prof poderia ensinar a configurar o PySpark no VS code ??? em alguma video tutorial
@Codifike Год назад ⁺²
Sugestão anotada!
@etgcrog1 3 года назад ⁺³
amei!!
@Codifike 3 года назад
Valeu Eduardo
@robsonmotta2267 3 года назад ⁺¹
Eu Amei também, Edu!!!
@ObrGerson Год назад
Excelente explicação de comandos simples e poderosos. Obrigado
@Codifike Год назад
Que bom que gostou
@SouDeveloper 6 месяцев назад ⁺¹
valeu vei peguei uma vaga numa multinacional como analista de dados BIG DATA, vou trabalhar com pyspark mas nunca tinha visto essa biblioteca
@pedrohentec 3 месяца назад
E como tu tá fazendo meu caro? Sou estagiário, e estou com uma task que está me tirando o sono ahahha
@Codifike 3 месяца назад
Sucesso!
@lucasrocha3149 Год назад
+1 escrito, estou trabalhando com stack azure, utilizando Databricks para transformação de dados em camadas delta no delta lake, excelente conteúdo, parabéns
@Codifike Год назад
Maravilha
@Anselmme Год назад
Muito bom Fabrício. Parabéns e obrigado!
@robsonmedeiros6657 Год назад ⁺¹
Excelente conteúdo. Parabéns!!!
@Codifike Год назад
Obrigado
@marcosleno3561 2 года назад
Excelente, só não achei no kagle e no imdb os arquivos utilizados.
@MarcosSarges 10 месяцев назад ⁺¹
Minha dúvida é… um sgbd tipo o Postgres como data lake ? Ou tudo bem tbm fazer isso?
@robertobr234 2 года назад ⁺¹
Sensacional!
@Codifike 2 года назад
Obrigado Roberto
@iagobuche_leticia 2 года назад
ótimo conteúdo! por favor, traga mais vivencias usando pyspark
@Codifike 2 года назад
Obrigado Letícia. 😀
@dannielfisico2666 2 года назад
PARABÉNS pelo conteúdo. Acho que seria se disponibilizasse as bases de dados ou os links, em vez de ficarmos procurando, aí a gente teria como ficar fazendo e acompanhando as explicações.
@Codifike 2 года назад
Oi Danniel, obrigado pelo feedback. Vou colocar
@MeuAmigoDeus 2 года назад
Muito bom! Excelente conteúdo!
@Codifike 2 года назад
Obrigado 😃
@milzaruiz3065 2 года назад ⁺¹
Excelente video!!!
@Codifike 2 года назад
Obrigado
@andrearaujo113 Год назад
Man, você poderia fazer vídeo sobre Datavault ? O que eu encontrei e muito básico
@rafaelcampos7799 Год назад
Excelente. Vc tem alguma aula explicando como obter o conjunto de dados de banco Oracle?
@Codifike Год назад ⁺¹
Tenta isso:
Antes de começar, certifique-se de ter o driver JDBC para Oracle. Você pode baixá-lo do site oficial da Oracle. Uma vez baixado, coloque o arquivo .jar em um local acessível.
Ao iniciar sua sessão PySpark, certifique-se de adicionar o driver JDBC ao classpath. Isso pode ser feito usando a opção --jars:.
pyspark --jars /caminho/para/o/driver/ojdbc8.jar
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("OracleAccess").getOrCreate()
oracle_url = "jdbc:oracle:thin:@//HOST:PORT/SID"
oracle_properties = {
"user": "SEU_USUARIO",
"password": "SUA_SENHA",
"driver": "oracle.jdbc.driver.OracleDriver"
}
df = spark.read.jdbc(oracle_url, "NOME_DA_TABELA", properties=oracle_properties)
df.show()
Substitua HOST, PORT, SID, SEU_USUARIO, SUA_SENHA e NOME_DA_TABELA pelos valores apropriados para sua configuração
Se você fizer alterações ou análises e quiser gravar os resultados de volta no Oracle, pode usar o método write.jdbc:
df.write.jdbc(oracle_url, "NOME_DA_TABELA_DESTINO", properties=oracle_properties, mode="overwrite")
@infinitycode2793 Год назад
Parabéns pelo trabalho!
@Codifike Год назад
Obrigado
@carlossil3895 7 месяцев назад
esse cara é dezz....FAZ CURSO..E COLOCA NA UDEMY...
@Codifike 7 месяцев назад
Obrigado
@Codifike 3 месяца назад
Ja tem o curso, alias tem vários . Dá uma olhada aqui: codifike.com.br/loja/
@MatheusOrnelas777 Год назад
muito obrigado e muito sucesso
@Codifike Год назад
Oi Mateus se quiser se aprofundar temos a formação Spark neste link : codifike.com.br/formacao-spark-full/
@dcassis 5 месяцев назад ⁺¹
Excelente video
@Codifike 3 месяца назад
Obrigado
@ARJ673 8 месяцев назад
Pode compartilhar o link para este colab?
@seya2183 2 года назад
Excelente!
@Codifike 2 года назад
Obrigado 😃
@jogenio Год назад
Muito TOP! Parabens!
@Codifike Год назад
Obrigado
@thupangas 2 года назад ⁺¹
cara ensina fazer lista invertida em py spark com arquivos de texto, preciso aprender a fazer isso para criar indices e dicionais
@Codifike 2 года назад
Sugestão anotada!
@patriciadelima_ 2 года назад
Excelente vídeo!
@Codifike 2 года назад
Obrigado
@antoniorochaneto 2 года назад
Que top! Parabens
@Codifike 2 года назад
Obrigado
@tiagomizuno1226 2 года назад
Parabens pelo conteudo!
@Codifike 2 года назад
Obrigado
@RobertoSilva-yv7yy 6 месяцев назад
muito bom
@pedroar9 4 месяца назад
Muito bom, deu uma ótima clareada sobre o assunto.
Não teria como incluir o link para o mesmo arquivo que utilizou nos exemplos?
@Codifike 3 месяца назад
datasets.imdbws.com/
@christiangoncalves7666 2 года назад
Excelente video, mas gostaria de tirar uma duvida... Em SQL posso analisar o plano de execução e reescrever a consulta ou criar indices... Como esse "tuning" é realizado no PySpark, além da criação de RDs?
@Codifike 2 года назад ⁺¹
Vc pode usar o explain
@hjbramos 2 года назад
Excelente!!!
@Codifike 2 года назад
Obrigado
@andrepressendo7842 2 года назад
Muito bom!!!!
@Codifike 2 года назад
Obrigado
@PedroSantos-gc7zt 2 года назад
ce eh o brabo pai
@Codifike 2 года назад
Obrigado 😂
@EloiiG Год назад
Oi Fabricio, excelente conteúdo, parabéns.
Tenho uma duvida:
quero salvar o resultado do valor em outra variável sem o cabeçalho, é possível?
@Codifike Год назад
Como assim? Poderia dar um exemplo?
@DanielBezerra1874523472645224 2 года назад
Gostaria de saber como faz para funcionar na maquina local usando o vs code.
@Codifike 2 года назад
Teria que instalar o.dpark.na sua máquina. As vezes dá erro por isso prefiro o notebook
2 года назад ⁺¹
Boa noite pessoal, alguém sabe onde conseguir esses datasets do vídeo? desde já, agradeço.
@Codifike 2 года назад
Pode pegar no site imdb
@gabrielevangelista4956 Год назад
No Google Colab eu poço simplesmente importar o pandas, começar codar em python e está tudo ok. A minha dúvida é, no caso do spark, quando eu faço a instalação dele no cluster, o que muda do primeiro exemplo que dei? Como é a forma de processar as coisas de ambos? Tudo aquilo que os olhos nossos não veem
@Codifike Год назад ⁺⁴
Primeiro, você precisa ter um cluster Spark configurado. Isso pode ser um cluster em nuvem (como AWS EMR, Azure HDInsight, Google Cloud Dataproc) ou um cluster on-premise.
Ao criar um objeto SparkSession em seu código, você especifica o modo de execução do cluster. Em vez de master('local'), você usará algo como master('yarn'), master('k8s'), ou master('mesos'), dependendo do gerenciador de cluster que você está usando.
Por exemplo:
from pyspark.sql import SparkSession
spark = SparkSession.builder \
.appName("MeuAppSpark") \
.master("yarn") \
.getOrCreate()
Para você submeter seu código Spark (geralmente um script Python, Scala ou Java) ao cluster, é feito através da linha de comando usando spark-submit, ou através de interfaces de usuário fornecidas por plataformas de cluster em nuvem.
@JPGamer 3 месяца назад ⁺¹
os dataset do imdb mudaram estão com mais niveis, o que da pra brincar mais
@Codifike 3 месяца назад
Show. obrigado por avisar
@JoaoPepe10Gamer Год назад ⁺¹
Uma duvida, como eu faço tudo isso que vc fez ai na minha máquina, como configuro no meu Windowns
@lucasarruda2824 Год назад ⁺²
Quando vou deszipar o spark aparece essa mensagem: gzip: stdin: not in gzip format
tar: Child returned status 1
tar: Error is not recoverable: exiting now
algúem sabe porque?
@Codifike Год назад
Parece que não está baixando o arquivo zipado
@ewertonrodrigues4585 Год назад
@@Codifike estou tendo o mesmo problema. alguma sugestão pf?
@Codifike Год назад ⁺¹
Baixe o arquivo .tar.gz da página do Spark
@matheus_19625 8 месяцев назад ⁺⁴
Não sei se você conseguiu resolver, mas eu estava com o mesmo problema. Eu percebi que algumas coisas mudaram desde o lançamento do vídeo; no caso agora você tem que clicar no link e ele lhe redicionará para a página do *Apache* e de lá que você tem que baixar.
@JPGamer 3 месяца назад ⁺¹
@@matheus_19625 valeu manin, tinha travado nisso tbm
@marcelo9223 Год назад
onde baixo os arquivos do imdb?
@Codifike Год назад
www.google.com/url?sa=t&source=web&rct=j&url=m.imdb.com/&ved=2ahUKEwj98Iny_r3-AhW6K7kGHV9NDvcQFnoECAgQAQ&usg=AOvVaw3tpEdgQw6c-ab6J9EhGeiy
@leandrosantanna1565 3 года назад
Boa tarde Fabricio!
Como vai?
Estou com a pretensao de tirar meu certificado do databricks associate, indica algum conteudo para estudo?
Obrigado pelo conteudo!
@Codifike 3 года назад ⁺²
Oi Leandro, oi melhor e da databricks academy, mas é muito caro. Tens uns muito bons na coursera,
@leandrosantanna1565 3 года назад
@@Codifike poxa, vlws mesmo pela dica! Vou dar uma fuçada lá

Следующие

Автовоспроизведение

Tutorial Airflow para engenharia de dados