Дмитрий, я не говорил, что load() ничего не делает - там много чего происходит... В логике изложения (в этом ролике - там про разницу трансформаций и действий) load() действительно не грузит данные - они будут загружены в момент выполнения действия. Если интересно "вчитаться" - можно глянуть тут (ссылка на linkedin - www.linkedin.com/pulse/spark-%D0%BD%D0%B8%D0%BA%D0%BE%D0%B3%D0%B4%D0%B0-%D0%BD%D0%B5-%D1%85%D1%80%D0%B0%D0%BD%D0%B8%D1%82%D0%B5-%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5-%D0%B2-csv-%D0%BC%D0%B8%D1%85%D0%B0%D0%B8%D0%BB-%D0%BA%D0%BE%D1%80%D0%BE%D0%BB%D0%B5%D0%B2/). При работе с CSV файлами опция inferSchema действительно приводит к двукратному чтению файла. И потом данные еще раз будут загружены во время выполнения ближайшего действия. "Жизнь боль" :-) Спасибо, что обратили внимание (мое и других зрителей) на эту особенность.
Какое же кайфовое объяснение. Спасибо большое!
расскажи еще раз про то, что .load() ничего не делает, так забавно слушать )
Дмитрий, я не говорил, что load() ничего не делает - там много чего происходит... В логике изложения (в этом ролике - там про разницу трансформаций и действий) load() действительно не грузит данные - они будут загружены в момент выполнения действия.
Если интересно "вчитаться" - можно глянуть тут (ссылка на linkedin - www.linkedin.com/pulse/spark-%D0%BD%D0%B8%D0%BA%D0%BE%D0%B3%D0%B4%D0%B0-%D0%BD%D0%B5-%D1%85%D1%80%D0%B0%D0%BD%D0%B8%D1%82%D0%B5-%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5-%D0%B2-csv-%D0%BC%D0%B8%D1%85%D0%B0%D0%B8%D0%BB-%D0%BA%D0%BE%D1%80%D0%BE%D0%BB%D0%B5%D0%B2/). При работе с CSV файлами опция inferSchema действительно приводит к двукратному чтению файла. И потом данные еще раз будут загружены во время выполнения ближайшего действия. "Жизнь боль" :-)
Спасибо, что обратили внимание (мое и других зрителей) на эту особенность.