Caramba, no dia do meu niver 16/07. Como nao vi antes! Estou lidando com um dataset grande de textos pra resolver um problema de classificação de documentos.
Prometeu o urso polar, mas só entregou o panda e o pato 😜 tava ansioso pelo teste do polars, ainda mais por a versão estável 1.0 ter saído semana passada
Claro, O projeto original é esse github.com/lvgalvao/One-Billion-Row-Challenge-Python O que fizemos na hora foi esse github.com/lvgalvao/1bilhaodelinhasaovivo
@@JornadaDeDados muito obrigado , parabens a todos ai pela dedicação, estou indoidando aqui com o chatgpt ele alucina muito mesmo chamando ele de burro ele continua alucinando, kkkkk
Sim, é possível, mas você precisa criar uma lógica para isso. Normalmente, utilizamos uma chave primária (PK) ou uma coluna de "data de última modificação" ("last_date") como referência e desenvolvemos uma lógica para inserir apenas as mudanças (delta).
@@JornadaDeDados ah, sim, mas isso vc pode fazer em qualquer linguagem. O fato é que o duckdb, para processamento em memória, é excelente, mas dentro de uma Stack completa, a proposta de valor ainda é baixa na minha visão para utilizarmos em ambiente produtivo. Mas é só minha visão...
Luciano, pelo amor de Deus, para de interromper o Fábio, ele tem muito conhecimento e explica bem e você é agitado e fica cortando o raciocinio k kkkkkk
Caramba, no dia do meu niver 16/07. Como nao vi antes! Estou lidando com um dataset grande de textos pra resolver um problema de classificação de documentos.
dou risada com o Luciano kkkk
Existe uma forma de usar o Databricks gratuitamente e sem custos?
Com duckdb eu consigo me conectar direto ao banco postgresql usando senha, user, host etc..?
Estou procurando algo na documentação
Prometeu o urso polar, mas só entregou o panda e o pato 😜 tava ansioso pelo teste do polars, ainda mais por a versão estável 1.0 ter saído semana passada
faz voce entao...ja que sabe fazer....abre uma live e faz.
Vamos adicionar um novo vídeo com o polars rodando, te aviso quando sair!
ola professores, estou estudando esta aula, é possivel atualizar o git com os codigos que faltam ? valew...
Claro,
O projeto original é esse github.com/lvgalvao/One-Billion-Row-Challenge-Python
O que fizemos na hora foi esse github.com/lvgalvao/1bilhaodelinhasaovivo
@@JornadaDeDados muito obrigado , parabens a todos ai pela dedicação, estou indoidando aqui com o chatgpt ele alucina muito mesmo chamando ele de burro ele continua alucinando, kkkkk
Mas e se meu arquivo de 1 bilhão de linhas mudar todo dia, e eu apenas quiser o delta ao invés de ler tudo novamente? O duckdb consegue fazer isso ?
quero acompanhar qual será a resposta dele....
Sim, é possível, mas você precisa criar uma lógica para isso. Normalmente, utilizamos uma chave primária (PK) ou uma coluna de "data de última modificação" ("last_date") como referência e desenvolvemos uma lógica para inserir apenas as mudanças (delta).
@@JornadaDeDados ah, sim, mas isso vc pode fazer em qualquer linguagem. O fato é que o duckdb, para processamento em memória, é excelente, mas dentro de uma Stack completa, a proposta de valor ainda é baixa na minha visão para utilizarmos em ambiente produtivo. Mas é só minha visão...
Também sinto falta de um recurso de histórico/versionamento de dados do próprio DuckDB.
Luciano, pelo amor de Deus, para de interromper o Fábio, ele tem muito conhecimento e explica bem e você é agitado e fica cortando o raciocinio k kkkkkk