Владимир Озеров - Быстрая обработка данных в Data Lake с помощью Trino

Поделиться
HTML-код
  • Опубликовано: 13 сен 2024
  • Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва + трансляция).
    Подробности и билеты: jrg.su/KFFBS7
    - -
    Скачать презентацию с сайта SmartData - jrg.su/jhBL6h
    Trino это массивно-параллельный SQL-движок для обработки больших данных из различных источников, Одним из ключевых сценариев использования Trino является интерактивный анализ информации из озер данных. Так как узлы Trino не хранят данные, возникает сложный вопрос: как обеспечить высокую производительность обработки хранящейся на удаленных серверах информации? И насколько такой подход конкурентоспособен по сравнению с классическими хранилищами данных?
    Спикер рассматривает реализацию и практическое использование ключевых оптимизаций, которые позволяют Trino и коммерческим продуктам на его основе быстро «перемалывать» данные из вашего озера: использование метаданных Parquet и ORC для уменьшения количества зачитываемых данных (project/filter/aggregate pushdown), динамическая фильтрация (runtime filtering), поздняя материализация колонок (late materialization), а также целых три локальных кэша: кэш метаданных, кэш данных и кэш промежуточных результатов запросов.

Комментарии • 4

  • @alesyuzefovich115
    @alesyuzefovich115 Месяц назад

    Спасибо Владимиру за отличный рассказ

  • @pavlovi4100
    @pavlovi4100 Месяц назад

    Отличный доклад

  • @робертПетров-с8д
    @робертПетров-с8д 8 дней назад

    Допустим я быстро обработал данные.
    Но ведь станок все равно деталь будет пилить 9 часов

  • @alexcoast9102
    @alexcoast9102 Месяц назад

    есть русское слово - применить, зачем долгое имплементировать ? )))))