Использование Dataframes в Apache Spark - курсы по Spark в "Школе Больших Данных

Школа Больших Данных

Просмотров 4,3 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 1 окт 2024
В данном видео рассматривается тема использования феймворка Apache Spark на примере использования Dataframes при выполнении запросов к данным.
Новый 3х дневный практический курс по Анализу данных с использованием Apache Spark для специалистов по аналитике данных, разработчиков, которые хотят освоить Apache Spark. "Школа Больших Данных" г. Москва
Программа курса «Анализ данных с Apache Spark Streaming, Spark SQL и GraphX»
Экосистема Apache Spark - Spark RDD
Архитектура Spark. Принципы работы Resilent Data Distribution (Spark RDD)
Обзор компонентов Spark и их назначения
Конфигурация Spark из Java. Запуск на одной или нескольких машинах. Запуск поверх hadoop
Основные классы и базовый workflow - Spark RDD
Spark core - работа с аккумуляторами и переменными среды
Apache Spark SQL
Расширение базовой системы классов- DataSet и DataFrame
Получение данных из SQL-источников с помощью Spark SQL
Отправка данных в SQL СУБД и работа с Hive QL
Spark SQL и Hadoop
Планы выполнения. Logical и physical планы. Настройки планов выполнения
Spark Streaming
Разница работы в режимах OLAP и OLTP. Основной workflow
Виды Spark Stream-ов. Особенности исполнения streaming кода
Windows в Spark Streaming
Кеширование в Spark Streaming
Checkpoint-ы в Spark Streaming
GraphX
Задачи графов в программировании. Место графов в модели распределенных вычислений
Представление графов в GraphX. Создание графов
Операции с графами в GraphX
Выбор модели распределения графа в GraphX
По вопросам обучения на курсах машинного обучения приглашаем в нашу «Школа Больших Данных»
Обращаться по телефону:
+7 (495) 41-41-121
+7 (995) 100-45-63
Чтобы не пропустить информацию о новых курсах, акциях и других событиях Школы Больших Данных, рекомендуем подписаться на нас в социальных сетях:
Телеграм-канал: t.me/BigDataSc...
Facebook: / bigdataschoolru
Вконтакте: bdschoo...
LinkedIn: / bigdataschoolru
Twitter: / bigdataschoolr
Подписывайтесь и будьте в курсе всех интересных новинок мира Big Data вместе со Школой больших данных - www.bigdatasch...

Комментарии • 3

@Zhdanko 2 года назад ⁺³
Какое же кайфовое объяснение. Спасибо большое!
@dmitryschlechter2304 3 года назад ⁺¹
расскажи еще раз про то, что .load() ничего не делает, так забавно слушать )
@michaelkorolev9055 3 года назад
Дмитрий, я не говорил, что load() ничего не делает - там много чего происходит... В логике изложения (в этом ролике - там про разницу трансформаций и действий) load() действительно не грузит данные - они будут загружены в момент выполнения действия.
Если интересно "вчитаться" - можно глянуть тут (ссылка на linkedin - www.linkedin.com/pulse/spark-%D0%BD%D0%B8%D0%BA%D0%BE%D0%B3%D0%B4%D0%B0-%D0%BD%D0%B5-%D1%85%D1%80%D0%B0%D0%BD%D0%B8%D1%82%D0%B5-%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5-%D0%B2-csv-%D0%BC%D0%B8%D1%85%D0%B0%D0%B8%D0%BB-%D0%BA%D0%BE%D1%80%D0%BE%D0%BB%D0%B5%D0%B2/). При работе с CSV файлами опция inferSchema действительно приводит к двукратному чтению файла. И потом данные еще раз будут загружены во время выполнения ближайшего действия. "Жизнь боль" :-)
Спасибо, что обратили внимание (мое и других зрителей) на эту особенность.

Следующие

Автовоспроизведение

Spark SQL - для работы с большими данными. Школа Больших Данных г. Москва