Greenplum: от двух до сотен серверов (Дмитрий Павлов, Аренадата) / @Databases Meetup

Поделиться
HTML-код
  • Опубликовано: 10 фев 2025
  • О внутреннем устройстве мощной СУБД для аналитических задач - на @Databases Meetup by Mail.ru Cloud Solutions mcs.mail.ru/yt Анонсы в Telegram: t.me/k8s_mail Все видео: bit.ly/2U57FAd Ищем спикеров: mcs.mail.ru/speak
    «Greenplum: от двух до сотен серверов. Строим современную аналитику с ACID, ANSI SQL и целиком на OpenSource»
    Дмитрий Павлов, Chief Product Officer, Arenadata
    Не секрет, что в успешных бизнесах количество данных, используемых для принятия решений, растет экспоненциально. В таких условиях становится невозможным решать задачи аналитики на традиционных СУБД и на помощь приходят кластерные массивно-параллельные системы.
    Greenplum - ведущая массивно-параллельная СУБД с открытым исходным кодом. Горизонтальная расширяемость до десятков петабайт, понятный пользователям синтаксис ANSI SQL, транзакционность, совместимость с PostgreSQL, возможность обучать и применять модели машинного обучения - всё это сделало «зелёную сливу» популярнейшим решением для масштабных аналитических систем и в небольших стартапах, и в огромных корпорациях.
    В этом докладе детально расскажем про архитектуру СУБД, внутреннее устройство, вопросы надёжности, а также затронем темы:
    - ACID в MPP СУБД - консистентность и/или шардирование?
    - Параллельная интеграция с другими кластерными системами: no bottlenecks!
    - Использование ML-моделей как SQL-функций в распределенной СУБД
    - Работа Keras + TensorFlow + CUDA + Nvidia v100 в условиях транзакционной СУБД
    - Разграничение ресурсов в аналитической СУБД
    - Компрессия - почему это так важно в аналитике?
    Полная программа @Databases Meetup, который прошел 28 февраля 2020 в офисе Mail.ru Group: corp.mail.ru/r...

Комментарии • 7

  • @kkkktttt4111
    @kkkktttt4111 4 месяца назад

    Отличное выступление!!!

  • @lestvt
    @lestvt 4 года назад +5

    Спасибо большое за доклад Дмитрий!
    Видео к просмотру рекомендую всем

  • @deltaxamega
    @deltaxamega 3 года назад +3

    Спасибо за хороший доклад!

  • @OskarKokoschka-u2h
    @OskarKokoschka-u2h 3 года назад +2

    Шикарный доклад!

  • @forest4766
    @forest4766 2 года назад

    7:47 вранье если джоинить не по тому полю по которому настроена дистрибция таблиц запросы просто х10 по времени выполняются

  • @erjang.4086
    @erjang.4086 10 месяцев назад

    гринплам это в основном в снг используется? а на западе у них есть свои аналоги?

    • @paulfunigga
      @paulfunigga 7 месяцев назад +1

      Да, почему-то в основном в СНГ. На западе данные хранят в S3, если это datalake/data lakehouse (snowflake/databricks), либо в базах данных типа druid, pinot, starrocks, иногда в teradata/vertica.