A melhor parte é ver os erros, quando a gente vê esses vídeos com 0 erros pensamos que estamos fazendo tudo errado no dia a dia, pois só conseguimos rodar depois de corrigir várias vezes o código. Agora vendo pessoas experts sendo "gente como a gente" o vídeo fica muito mais interessante. Parabéns, gostei muito do conteúdo todo.
Ótimo video. Tem pouco material didático de airflow. Se possível, faça um vídeo da instalação tanto no Linux (wsl) quanto no docker, por favor. Vejo muita dúvida disso na comunidade do telegram tb.
Conteúdo muito bacana! Parabéns! Uma ideia de vídeo. Poderia falar sobre xcom e sua utilização em diferentes operadores (como pegar valores de uma consulta sql, python, etc).
muito boa essa ferramenta, gostei bastante. Faço algumas RPA de dados de fornecedores da empresa. Eles disponibiliza no site ou servidor FTP deles e eu faço uma automação para ir la buscar e salvar no disco e inserir no BI. Atualmente, eu faço pelo agendador de tarefas do windows msm. Me interessei por essa ferramenta, estava pensando em modularizar minha automação com POO mas essa ferramenta me chamou atenção. Você me deu varios insights aqui com esse simples video.
Top man!!!! Ajudou muito!!! Fiz uma pequena adaptação no cod para ver na pratica a segmentação de escolha de tarefa. def captura_conta_dados(): quantidade = [500,2500] qtd = random.choice(quantidade) return qtd def e_valida(ti): qtd = ti.xcom_pull(task_ids = 'captura_conta_dados') if (qtd > 1000): return 'nvalido' return 'valido' with DAG('verifica_numeros_fer', start_date = datetime(2021,12,1), schedule_interval="*/1 * * * *", catchup=False) as dag: O complicado é que ele só segue um fluxo não alternando entre um ou outro, saberia se ha algo que devemos executar a mais?
Excelente explicação e didática! a partir desse video comecei a fazer alguns testes e me deparei com uma conexao odbc, não consegui implementá-la. Meu banco de dados em questão é um sybase que geralmente usa um conector sqlanyware, consigo conectar o banco pelo isql dentro do container, mas não consegui colocá-lo no airflow, se vc puder dar alguma dica ou um video q eu possa reproduzir aqui ficaria grato.
Excelente aula! Só uma dúvida, no caso eu colocando pra iniciar hoje (31/10/2023) e a cada 30min, ele vai rodar eternamente a cada 30min? Tipo no dia 01/11/2023 vai executar as 00:30:00 depois 01:00:00 e assim por diante?
Sim, começará a executar em 31 de outubro de 2023 e continuará executando a cada 30 minutos indefinidamente. Então, sim, no dia 01/11/2023, ele executará às 00:30:00, 01:00:00 e assim por diante.
@@Codifike top! Quando lança um curso pra nós de Airflow? Mais uma dúvida, consigo monitor um banco em tempo real com Airflow e a cada registro novo ele pegar esses dados e jogar em meu S3 na aws para o data lake?
@@caiquemascanha o curso estará dentro da formação engenheiro de dados que estou montando edeve ficar pronto no início do ano que vem. Quanto a parte do airflow, Sim, você pode usar o Apache Airflow para monitorar um banco de dados e transferir novos registros para um bucket S3 na AWS. No entanto, é importante notar que o Airflow não é uma ferramenta de processamento em tempo real. Ele é mais adequado para tarefas de processamento em lote e agendadas. Dito isso, você pode configurar um DAG para executar em intervalos curtos, como a cada minuto, para simular uma espécie de monitoramento em "quase tempo real". O melhor seria usar o kafka
Muito bom o vídeo. Mas o meu está dando conflito com uma outra dag que vem por padrão com o mesmo nome. Com as tasks, extract transform and load. E ai fica revezando em Graphs essa, com a que eu construi
excelente aula sobre o airflow!! Gostaria de saber se há alguma forma de realizar um backup das DAGs do Airflow e seus atuais status (ligadas e desligadas) igual tem o import e export das conexões... Trabalho com Airflow a pouco tempo e sempre que vou realizar o processo de cleanup preciso startar todas as que usamos manualmente (mais de 300 atualmente), sendo que algumas precisam ficar desligadas. Existe essa função de restaurar elas em seu status atual?
@@Codifike Quando realizamos o cleanup do Airflow, todas as DAGs são deletadas, junto com os logs... quando eu subo as conexões mais tarde as DAGs voltam mas todas desligadas, queria saber se tem como fazer um backup dessas DAGs pra qnd voltar elas, não precisar ligar todas novamente uma por uma correndo o risco de ligar alguma que nao era pra ter ligado
No meu não funciona, não consigo descobrir o porquê. Até a parte da criação da DAG ele roda tranquilo, quando eu importo as duas primeiras linhas de código, fica aquele pontilhado amarelo em baixo apontando que não existe a biblioteca ou que não está no interpretador correto
Olá, adorei o vídeo e ficou extremamente bem explicado. Uma dúvida que eu tenho é: quando termina a task eu consigo ver o resultado dela? No vídeo foi pego as informações de um lugar, e logo em seguida validado, mas eu queria ver esses dados. Seria possível?
Boa, quanto a conexão com outros bancos de dados, posso fazer direto no script em python usando os conectores das bibliotecas pelo import? (na própria DAG) Obrigado Abs
Olá! Sou bem leigo na ferramenta ainda. Quando desligo o computador e vou logar novamente no airflow, como inicializo a ferramenta de novo? Pra logar no localhost:8080? Obrigado!
Estou com dificuldade na criação de uma DAG; eu crio a DAG mas ela não aparece no apache airflow. Uso Virtual Box com ubuntu instalado mas meu PC é windows
Dá uma checada se o nome está que na criacao da dag e o mesmo que está procurando na UI. Pode também restartar o docker pois as vezes o airflow não atualiza a a tabela de metadados onde as dags estão.
Excelente vídeo meu caro, parabéns! Uma dúvida, meu objetivo é extrair dados de uma base postgre e salvar um .csv localmente no docker. Inicialmente fiz o código python salvando o .csv em uma pasta local, porém ao rodar no airflow e salvar no docker, recebo o erro de não ter permissão para criar pasta e salvar arquivo no docker. Com qual código altero essa permissão para poder salvar no docker? Erro recebido no Airflow: PermissionError: [Errno 13] Permission denied: '/opt/airflow/dados/DesafioGitHub/output_data/csv
Olá , Uma boa prática é nunca salvar nada no docker, vc deve apontar para uma diretório que vc tenha permissão como um bucket s3 ou um diretório na rede
cara eu sou muito burro mesmo, pq pelo que to vendo aqui nos comentarios so eu nao consegui.....Parabens pelo canal, mas eu nao assisto mais, me confundiu mais do que ajudou.
Descubra como se tornar um Engenheiro de Dados com o Método Data Pro:
metododatapro.codifike.com.br/
A melhor parte é ver os erros, quando a gente vê esses vídeos com 0 erros pensamos que estamos fazendo tudo errado no dia a dia, pois só conseguimos rodar depois de corrigir várias vezes o código. Agora vendo pessoas experts sendo "gente como a gente" o vídeo fica muito mais interessante.
Parabéns, gostei muito do conteúdo todo.
Obrigado
xcom - 17:40
operators - 09:08
ti(taskinstance) - 18:30
Bom é assim pq a gente aprende o que fazer qdo erra! Adorei! Parabéns!
Obrigado
Ótimo video. Tem pouco material didático de airflow. Se possível, faça um vídeo da instalação tanto no Linux (wsl) quanto no docker, por favor. Vejo muita dúvida disso na comunidade do telegram tb.
Muito bom, parabéns pelas aulas, muito bem explicado, a comunidade brasileira precisa desse tipo de material por aqui, valeuzao
Segura meu like aí. 26 minutos muito objetivo, parabéns. Ótimo conteúdo.
Obrigados Gustavo
Sensacional! Obrigado pela explicação. Grava mais aulas sobre o AirFlow.
Que bom que gostou. Vou gravar sim.Abraços
Conteúdo muito bacana! Parabéns!
Uma ideia de vídeo. Poderia falar sobre xcom e sua utilização em diferentes operadores (como pegar valores de uma consulta sql, python, etc).
Boa noite! Obrigado pelo conteúdo.Gostaria sim de um vídeo de instalação do Airflow
Q bom q gostou
Me inscrevi e não perco mais um vídeo seu! Ótima aula, didática, e inclusive ver os erros fez toda diferença, parabéns!!!
Muito obrigado
Muito massa!!
Será que teriamos um vídeo de integração do airflow com o databricks?
muito boa essa ferramenta, gostei bastante. Faço algumas RPA de dados de fornecedores da empresa. Eles disponibiliza no site ou servidor FTP deles e eu faço uma automação para ir la buscar e salvar no disco e inserir no BI. Atualmente, eu faço pelo agendador de tarefas do windows msm. Me interessei por essa ferramenta, estava pensando em modularizar minha automação com POO mas essa ferramenta me chamou atenção. Você me deu varios insights aqui com esse simples video.
QUe bom Thiago
Por favor, Professor, poderia fazer um video de instalação e configuração do Airflow no windows?
Já fiz segue o link: ruclips.net/video/w8Z--fpEpyU/видео.html
ótima aula de airflow! parabéns pelo conteúdo
Obrigado
Mano, muito bom. parabéns!! ótima didática
Obrigado
Sensacional esse vídeo, melhor coisa é deixar dar os erros porque na vida real é assim não e verdade ?
Muito obrigado pelo vídeo
Obrigado
Muito boa cara! Parabéns!!
0brigado
Conteúdo de ótima qualidade
Muito objetivo! Parabéns! Além do like, ganhou um seguidor.
Muito obrigado 😃
Ótima explicação! Obrigado!
Obrigado Helder
Muito bom, cara!! Parabéns!!
Obrigado
Adorei o canal. Parabéns!!!
Obrigado👍
Excelente vídeo. Parabéns !!!
Obrigado
Daora AirFlow, poderia fazer mais videos hehe seria um pipeline interessante de se ver por completo, daria para usar pySpark?
excelente material
Funcionou perfeito o tutorial.
QUe bom😀
Fantástico o conteúdo!
Obrigado
Ola, poderia ensinar a linkar o airflow com o github, realizar o metodo upsert e armazenar os dados em um s3 na amazon?
Vou ver se consigo
Que demais!!! Incrível!!!
Obrigado
Muito útil, obrigado.
Eu q agradeço por assistir
Top man!!!!
Ajudou muito!!! Fiz uma pequena adaptação no cod para ver na pratica a segmentação de escolha de tarefa.
def captura_conta_dados():
quantidade = [500,2500]
qtd = random.choice(quantidade)
return qtd
def e_valida(ti):
qtd = ti.xcom_pull(task_ids = 'captura_conta_dados')
if (qtd > 1000):
return 'nvalido'
return 'valido'
with DAG('verifica_numeros_fer', start_date = datetime(2021,12,1),
schedule_interval="*/1 * * * *", catchup=False) as dag:
O complicado é que ele só segue um fluxo não alternando entre um ou outro, saberia se ha algo que devemos executar a mais?
Muito obrigado!
Ótimo conteúdo
Perfeito
Obrigado Júlio
Show!!!
Obrigado Charles
Brigado. Da Colombia
Muito bom
Mostra como instala o airflow na máquina pfv!!!
Excelente explicação e didática! a partir desse video comecei a fazer alguns testes e me deparei com uma conexao odbc, não consegui implementá-la. Meu banco de dados em questão é um sybase que geralmente usa um conector sqlanyware, consigo conectar o banco pelo isql dentro do container, mas não consegui colocá-lo no airflow, se vc puder dar alguma dica ou um video q eu possa reproduzir aqui ficaria grato.
Oi Deive qual o erro?
Gostaria de ver também sobre a instalação do mesmo
ruclips.net/video/w8Z--fpEpyU/видео.html
Excelente aula!
Só uma dúvida, no caso eu colocando pra iniciar hoje (31/10/2023) e a cada 30min, ele vai rodar eternamente a cada 30min?
Tipo no dia 01/11/2023 vai executar as 00:30:00 depois 01:00:00 e assim por diante?
Sim, começará a executar em 31 de outubro de 2023 e continuará executando a cada 30 minutos indefinidamente. Então, sim, no dia 01/11/2023, ele executará às 00:30:00, 01:00:00 e assim por diante.
@@Codifike top!
Quando lança um curso pra nós de Airflow?
Mais uma dúvida, consigo monitor um banco em tempo real com Airflow e a cada registro novo ele pegar esses dados e jogar em meu S3 na aws para o data lake?
@@caiquemascanha o curso estará dentro da formação engenheiro de dados que estou montando edeve ficar pronto no início do ano que vem. Quanto a parte do airflow, Sim, você pode usar o Apache Airflow para monitorar um banco de dados e transferir novos registros para um bucket S3 na AWS. No entanto, é importante notar que o Airflow não é uma ferramenta de processamento em tempo real. Ele é mais adequado para tarefas de processamento em lote e agendadas. Dito isso, você pode configurar um DAG para executar em intervalos curtos, como a cada minuto, para simular uma espécie de monitoramento em "quase tempo real". O melhor seria usar o kafka
Muito bom o vídeo. Mas o meu está dando conflito com uma outra dag que vem por padrão com o mesmo nome. Com as tasks, extract transform and load. E ai fica revezando em Graphs essa, com a que eu construi
Olá Gabriel, não pode ter dags com mesmo nome, mude a sua dag para evitar o conflito.
excelente aula sobre o airflow!!
Gostaria de saber se há alguma forma de realizar um backup das DAGs do Airflow e seus atuais status (ligadas e desligadas) igual tem o import e export das conexões...
Trabalho com Airflow a pouco tempo e sempre que vou realizar o processo de cleanup preciso startar todas as que usamos manualmente (mais de 300 atualmente), sendo que algumas precisam ficar desligadas. Existe essa função de restaurar elas em seu status atual?
OlÁ, Obrigado . Não entendi sua pergunta
@@Codifike Quando realizamos o cleanup do Airflow, todas as DAGs são deletadas, junto com os logs... quando eu subo as conexões mais tarde as DAGs voltam mas todas desligadas, queria saber se tem como fazer um backup dessas DAGs pra qnd voltar elas, não precisar ligar todas novamente uma por uma correndo o risco de ligar alguma que nao era pra ter ligado
No meu não funciona, não consigo descobrir o porquê.
Até a parte da criação da DAG ele roda tranquilo, quando eu importo as duas primeiras linhas de código, fica aquele pontilhado amarelo em baixo apontando que não existe a biblioteca ou que não está no interpretador correto
o meu tambem aconteceu isso não sei por que
Muito bom seu curso, gostaria um curso assim, onde encontro?
Ainda está em fase de roteiro, mas vai sair😜
@@Codifike Poxa que bacana, aguardo ansioso!
quando eu rodo o docker-compose up, o terminal fica rodando infinitamente rsrs, não sei o que é.
Bom dia. Quais são as extensions do vscode que vc tem instaladas para conseguir desenvolver o que foi demonstrado no conteúdo do vídeo?
Docker, python,
DOcker, python .... e como estou usando uma pasta git para sincronizar com o airflow no servidor, instalei tb as extensões do git.
Olá, adorei o vídeo e ficou extremamente bem explicado. Uma dúvida que eu tenho é: quando termina a task eu consigo ver o resultado dela? No vídeo foi pego as informações de um lugar, e logo em seguida validado, mas eu queria ver esses dados. Seria possível?
Oi João, sim,na vida real as task geralmente são usadas para carga em tabelas. Neste caso o resultado seria os dados nas tabelas
Boa, quanto a conexão com outros bancos de dados, posso fazer direto no script em python usando os conectores das bibliotecas pelo import? (na própria DAG)
Obrigado
Abs
Pode. E o SQL pode ficar em arquivo separado sendo chamado na task
Olá! Sou bem leigo na ferramenta ainda. Quando desligo o computador e vou logar novamente no airflow, como inicializo a ferramenta de novo? Pra logar no localhost:8080? Obrigado!
Oi, vc tem que iniciar novamente o docker na sua máquina e executar os comandos de start
Seria possível orquestrar Jupyter notebook's com Airflow?
Sim, estou montando um material sobre isso.
@@Codifike você é o cara. Se pudesse me inscrevia mais uma vez...hehe
@@oiwelder Obrigado
Estou com dificuldade na criação de uma DAG; eu crio a DAG mas ela não aparece no apache airflow. Uso Virtual Box com ubuntu instalado mas meu PC é windows
Dá uma checada se o nome está que na criacao da dag e o mesmo que está procurando na UI. Pode também restartar o docker pois as vezes o airflow não atualiza a a tabela de metadados onde as dags estão.
Recebo o erro e_valida() missing 1 required positional argument:ti , na segunda task.
Alguém teve este mermo problema? valeu
Esta esperando um argumento e não foi passado nenhum. da uma olhada no código , para ver se não esqueceu nada
Excelente vídeo meu caro, parabéns!
Uma dúvida, meu objetivo é extrair dados de uma base postgre e salvar um .csv localmente no docker.
Inicialmente fiz o código python salvando o .csv em uma pasta local, porém ao rodar no airflow e salvar no docker, recebo o erro de não ter permissão para criar pasta e salvar arquivo no docker.
Com qual código altero essa permissão para poder salvar no docker?
Erro recebido no Airflow: PermissionError: [Errno 13] Permission denied: '/opt/airflow/dados/DesafioGitHub/output_data/csv
Olá , Uma boa prática é nunca salvar nada no docker, vc deve apontar para uma diretório que vc tenha permissão como um bucket s3 ou um diretório na rede
precisa de um python avançadinho, não entendi mt bem o que você importou ai e o por que dessa sintaxe
Sim, é preciso já ter um conhecimento bom de python para iniciar na eng. De dados
cara eu sou muito burro mesmo, pq pelo que to vendo aqui nos comentarios so eu nao consegui.....Parabens pelo canal, mas eu nao assisto mais, me confundiu mais do que ajudou.