Использование Dataframes в Apache Spark - курсы по Spark в "Школе Больших Данных

Поделиться
HTML-код
  • Опубликовано: 13 янв 2025

Комментарии • 3

  • @Zhdanko
    @Zhdanko 3 года назад +3

    Какое же кайфовое объяснение. Спасибо большое!

  • @dmitryschlechter2304
    @dmitryschlechter2304 3 года назад +1

    расскажи еще раз про то, что .load() ничего не делает, так забавно слушать )

    • @michaelkorolev9055
      @michaelkorolev9055 3 года назад

      Дмитрий, я не говорил, что load() ничего не делает - там много чего происходит... В логике изложения (в этом ролике - там про разницу трансформаций и действий) load() действительно не грузит данные - они будут загружены в момент выполнения действия.
      Если интересно "вчитаться" - можно глянуть тут (ссылка на linkedin - www.linkedin.com/pulse/spark-%D0%BD%D0%B8%D0%BA%D0%BE%D0%B3%D0%B4%D0%B0-%D0%BD%D0%B5-%D1%85%D1%80%D0%B0%D0%BD%D0%B8%D1%82%D0%B5-%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5-%D0%B2-csv-%D0%BC%D0%B8%D1%85%D0%B0%D0%B8%D0%BB-%D0%BA%D0%BE%D1%80%D0%BE%D0%BB%D0%B5%D0%B2/). При работе с CSV файлами опция inferSchema действительно приводит к двукратному чтению файла. И потом данные еще раз будут загружены во время выполнения ближайшего действия. "Жизнь боль" :-)
      Спасибо, что обратили внимание (мое и других зрителей) на эту особенность.