Спорим о Hadoop: пора ли прощаться с любимым инструментом?
HTML-код
- Опубликовано: 15 сен 2024
- Одни считают, что Hadoop устарел, а другие не спешат с ним расставаться.
Вместе с коллегами из VK Cloud Solutions мы провели дискуссию, чтобы выяснить судьбу этого популярного инструмента Big Data-аналитики.
Программа «Инженер данных»: bit.ly/3JwEbSq
Подписывайтесь и следите за нами:
karpov.courses/
karpovc...
t.me/KarpovCou...
00:00 Введение и представление участников
3:19 В последнее время Hadoop рос или стагнировал?
7:06 Сравнение уменьшения дистрибутивов Hadoop с реляционными базами данных
9:06 Описание структур отделов и количества людей в них
13:10 Является ли часть Hadoop облаком?
15:10 Удобные панели: нужны ли они?
16:33 Будет ли Hadoop использовать облако
19:28 Что в OZON подразумевают под моделью
22:27 Важный момент о кейсах с переиспользованием мощностей
25:20 Cборка Hadoop в Одноклассниках и VK Cloud
29:37 О том, как сейчас чаще используют Hadoop
34:50 Hadoop - это Lego?
36:56 Vertica и MPP базы
43:05 Presto
44:31 Data locality
46:04 О современных тенденциях хранения и обработки данных
50:01 Spark
53:12 Развёртывание кода в Hadoop
57:43 SQL
1:00:24 Коннекторы и интеграция
1:09:33 JVM и GPU
1:14:29 Развитие Hadoop и удобство Spark
1:23:24 Развитие железа
1:24:27 Переход к Q&A-сессии
Q&A-сессия:
1:27:25 Проблема работы с Big Data и NameNode
1:33:42 Как будет выживать Hadoop при дефиците носителей
1:35:40 Зачем OZON и Одноклассникам Hadoop
1:38:13 Используемые методы моделирования в OZON
1:39:34 Как обеспечить согласованность данных и понять, что всё записалось правильно
1:41:22 Hadoop + Big Data + DWH
1:43:33 Spark, Airflow и S3 в Kubernetes
1:46:06 Apache Ozone
1:47:24 Как обеспечивается защита данных в облаках
1:49:17 MPP vs Hadoop
1:51:12 Лямбда архитектура
1:53:56 Snowflake
1:56:38 Что делать, если закроют Open source сборки
1:57:31 Open source MPP
2:02:38 Заключительная часть: почему нравится Hadoop
2:03:36 Заключительное слово
В таком обсуждении как-будто не хватает всем по бокальчику пива🙂
12:03
Начало
Обновили, спасибо!
Пора, HDFS ещё поработает какое-то время, а для Hadoop как движка распределённых вычислений уже слишком много хороших альтернатив.
Спасибо за интересную беседу и хороший набор вопросов. Довольно познавательно, как будто сам в обсуждении трендов поучаствовал))
Вообще если вылезти из российской песочницы - то в мире никто уже новые дата проекты на хадупе не стартует. Все в облаках, стораджи аля s3 и azure data storage и датабриксы и сноуфлек
Сергей говорит что если мы захотим заменить hdfs на s3, то надо будет поменять свое мышление, при этом data locality не является основной проблемой. А в чем что ещё важного изменится кроме как локальность данных?
то что hive нет.