Михаил Марюфич - Hadoop в Облаке - это ОК

Поделиться
HTML-код
  • Опубликовано: 28 авг 2024
  • Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва + трансляция).
    Подробности и билеты: jrg.su/KFFBS7
    - -
    Для OK Hadoop - это ключевой компонент инфраструктуры данных: он активно используется как для реализации продуктовой аналитики, так и для продакшена рекомендательных систем. С точки зрения объемов это более 200 PB в HDFS, 70k vcores, 200 TB RAM.
    Вся инфраструктура в Одноклассниках (и не только) разворачивается во внутреннем контейнерном облаке и этому есть причины:
    - унификация эксплуатации как железа, так и приложений;
    - кардинальное повышение утилизации доступного железа.
    В прошлом году очередь дошла и до Hadoop. Михаил рассказывает:
    - о причинах отказа от классических подходов по развертыванию и эксплуатации Hadoop-кластеров;
    - о том, как провести миграцию сотен петабайт так, чтобы пользователи этого не заметили;
    - о сложности жизни с соседями (теперь на одной машине с Hadoop может поселиться другая программа, претендующая на ресурсы);
    - и, конечно же, о том, какие преимущества получили в итоге (спойлер - значительные).

Комментарии •