Disk Partition | Como Otimizar seu LakeHouse | PySpark + Databricks

Поделиться
HTML-код
  • Опубликовано: 11 дек 2024

Комментарии • 10

  • @christiangoncalves5168
    @christiangoncalves5168 2 года назад

    Excelente conteúdo! Trabalho com engenharia de dados mas com ambiente totalmente onprimesse... Estou migrando para a azure e aprendendo muito com seus conteúdos

  • @williancavalcante9163
    @williancavalcante9163 3 года назад +1

    Sensacional!! A maneira como você introduz um problema de negocio para apresentar a tecnologia e de como é importante seguir boas praticas de otimização fica extremamente fácil de entender. Sua didática é muito boa, parabéns! Gostaria de ver um video seu apresentando um problema de negocio que precisa ser resolvido com tecnologias de mensageria ou eventos e qual a diferença entre um e outro já que muitas vezes nos confundimos com a terminologia e mostrar a importância de se desenhar bem esse tipo de arquitetura.

    • @bigdatamasters32
      @bigdatamasters32  3 года назад

      Muito Obrigado Willian! Anotei seu pedido e vou tentar trazer em breve mais vídeos sobre processamento streaming!

  • @cleitonsouza6292
    @cleitonsouza6292 2 года назад

    Olá. Exelente video. Estou começando agora com Spark. E gostaria de ver um exemplo dessa otimização usando conexão jdbc.

  • @RossittoS
    @RossittoS 3 года назад

    Muito bom!!

  • @adrianobarbosa9738
    @adrianobarbosa9738 2 года назад

    geralmente eu particiono quebrando dia_partition, mes_partition e ano_partition

  • @MrDanieldavila
    @MrDanieldavila 3 года назад +1

    Ótimo vídeo, muito bom, sem palavras para agradecer.
    13:36 Cara, que coisa simples, mas que eu não sabia. Eu posso usar uma lista, ou descontruir algo nesse sentido?
    Recentemente tive eu que buscar de várias api's, o que alterava entre elas era o id, será que tem como aplicar algo nesse sentido?

    • @bigdatamasters32
      @bigdatamasters32  3 года назад +1

      Fala Daniel! Beleza?
      Você pode passar alguns parâmetros no caminho dos arquivos como se fosse uma espécie de "REGEX".
      Sobre as APIS não ficou claro se a pergunta era sobre o particionamento ou sobre a listagem dos arquivos.
      Se for sobre a listagem, então sim, seria interessante você consumir somente os arquivos da API que vc quer e essa forma pode te ajudar.
      Se for sobre o particionamento, vc pode usar o ID da API como chave de partição e acelerar suas queries.

    • @MrDanieldavila
      @MrDanieldavila 3 года назад

      @@bigdatamasters32 legal, obrigadão por responder. Vou procurar particionar por id.

  • @JoaoVictor-xc8mp
    @JoaoVictor-xc8mp 3 года назад +1

    databricks é pago ? e se eu for partir para aprender programação na nuvem como aws ou ate mesmo o azure, preciso investir dinheiro para adquirir uma maquina na nuvem ?