Pipeline ETL Python - 1 Bilhão de linhas com Pandas, Polars, PySpark e Duckdb

Поделиться
HTML-код
  • Опубликовано: 8 фев 2025

Комментарии • 16

  • @sobolev4593
    @sobolev4593 4 месяца назад

    Caramba, no dia do meu niver 16/07. Como nao vi antes! Estou lidando com um dataset grande de textos pra resolver um problema de classificação de documentos.

  • @makinista5661
    @makinista5661 4 месяца назад

    dou risada com o Luciano kkkk

  • @thiagofarias8002
    @thiagofarias8002 Месяц назад

    Existe uma forma de usar o Databricks gratuitamente e sem custos?

  • @diogoantonio9716
    @diogoantonio9716 6 месяцев назад +2

    Com duckdb eu consigo me conectar direto ao banco postgresql usando senha, user, host etc..?
    Estou procurando algo na documentação

  • @riptorforever2
    @riptorforever2 6 месяцев назад +6

    Prometeu o urso polar, mas só entregou o panda e o pato 😜 tava ansioso pelo teste do polars, ainda mais por a versão estável 1.0 ter saído semana passada

    • @mariadasilvasantoscosta5750
      @mariadasilvasantoscosta5750 6 месяцев назад +4

      faz voce entao...ja que sabe fazer....abre uma live e faz.

    • @JornadaDeDados
      @JornadaDeDados  6 месяцев назад +1

      Vamos adicionar um novo vídeo com o polars rodando, te aviso quando sair!

  • @oleosessenciaisdoterra
    @oleosessenciaisdoterra 6 месяцев назад +1

    ola professores, estou estudando esta aula, é possivel atualizar o git com os codigos que faltam ? valew...

    • @JornadaDeDados
      @JornadaDeDados  6 месяцев назад +4

      Claro,
      O projeto original é esse github.com/lvgalvao/One-Billion-Row-Challenge-Python
      O que fizemos na hora foi esse github.com/lvgalvao/1bilhaodelinhasaovivo

    • @oleosessenciaisdoterra
      @oleosessenciaisdoterra 6 месяцев назад +1

      @@JornadaDeDados muito obrigado , parabens a todos ai pela dedicação, estou indoidando aqui com o chatgpt ele alucina muito mesmo chamando ele de burro ele continua alucinando, kkkkk

  • @felipebarasneviciusvides7458
    @felipebarasneviciusvides7458 6 месяцев назад +2

    Mas e se meu arquivo de 1 bilhão de linhas mudar todo dia, e eu apenas quiser o delta ao invés de ler tudo novamente? O duckdb consegue fazer isso ?

    • @AlmirBispo-CSV-Comp-DB
      @AlmirBispo-CSV-Comp-DB 6 месяцев назад +1

      quero acompanhar qual será a resposta dele....

    • @JornadaDeDados
      @JornadaDeDados  6 месяцев назад +1

      Sim, é possível, mas você precisa criar uma lógica para isso. Normalmente, utilizamos uma chave primária (PK) ou uma coluna de "data de última modificação" ("last_date") como referência e desenvolvemos uma lógica para inserir apenas as mudanças (delta).

    • @felipebarasneviciusvides7458
      @felipebarasneviciusvides7458 6 месяцев назад +1

      @@JornadaDeDados ah, sim, mas isso vc pode fazer em qualquer linguagem. O fato é que o duckdb, para processamento em memória, é excelente, mas dentro de uma Stack completa, a proposta de valor ainda é baixa na minha visão para utilizarmos em ambiente produtivo. Mas é só minha visão...

    • @victorantoniassi
      @victorantoniassi 6 месяцев назад

      Também sinto falta de um recurso de histórico/versionamento de dados do próprio DuckDB.

  • @makinista5661
    @makinista5661 4 месяца назад

    Luciano, pelo amor de Deus, para de interromper o Fábio, ele tem muito conhecimento e explica bem e você é agitado e fica cortando o raciocinio k kkkkkk