Николай Голов - Этапы построения платформы аналитических данных в облаках и на своем железе

Поделиться
HTML-код
  • Опубликовано: 3 ноя 2021
  • Глава Data Engineering в ManyChat, отвечает за все пайплайны и платформу данных для аналитики (хранилище, BI, ETL, интеграционные сервисы). Раньше был руководителем Data Platform в Avito. В область ответственности Data Platform входили системы больших данных, OLTP-базы (PostgreSQL), NoSQL-базы (MongoDB, Redis, Tarantool, VoltDB), а также системы очередей и потоковой обработки данных (RabbitMQ, NSQ, Spark). Также Николай преподает в НИУ ВШЭ, где занимается научными исследованиями в области современных методологий построения хранилищ данных (Data Vault и Anchor Modeling) и изучает BlockChain.
    / golov-nikolay-b8898145
    Представьте, что компании нужно выстроить аналитическую платформу, включающую сбор данных с сервисов, доставку до слоев хранения (Data Lake, детализированные данные, витрины), выполнение расчетов (batching, streaming) и интеграцию с BI-инструментами (отчетность, ML).
    За полтора года ManyChat решил эту задачу полностью в облаках (AWS), выбирая новейшие инструменты исходя из максимального удобства и минимизации стоимости владения. Победившая конфигурация основана на новейшей бессерверной базе Snowflake, а также ElastiCashe Redis, RDS PostgreSQL, Tableau, интегрированных посредством Python.
    В этом докладе Николай планирует описать процесс выбора на каждом этапе построения платформы, возможные риски и итоговый опыт использования. Итоговая платформа содержит более 100 Тб данных, регулярно получает данные из десятков сервисов и поддерживает работу сотни пользователей аналитики.

Комментарии •