Аналитик данных Виктория Юферева
Аналитик данных Виктория Юферева
  • Видео 32
  • Просмотров 3 298
Группировка данных в pandas - Часть 2 - Агрегация, Фильтрация, Преобразование
В первой части урока вы познакомились с термином "агрегирование" и с наиболее популярными агрегирующими функциями, с помощью которых можно представлять данные в обобщенном виде. Также Вы узнали, что библиотека pandas поддерживает методологию "разделить-применить-объединить" (split-apply-combine).
Во второй части мы сначала рассмотрим альтернативные способы определения ключей для разбиения данных по группам И некоторые интересные методы объекта groupby, а далее будем говорить о применении различных функций к сгруппированным данным, в частности сконцентрируемся на таких методах как filter, transform и apply.
00:00 | Введение
01:05 | Вспоминаем основы группировки данных в pandas
01:31 | Простые...
Просмотров: 78

Видео

Метод GROUPBY. Группировка данных структуры DataFrame. Часть 1
Просмотров 125Месяц назад
Сегодня мы начнем разбирать одну из наиболее важных тем - это агрегирование и группировка данных. 00:00 | Введение 00:19 | Агрегирование (агрегация), агрегирующие функции и агрегированные данные 01:43 | Методология "split-apply-combine" ("разделить-применить-объединить" ) 03:42 | Объект GroupBy 05:56 | Атрибут DataFrameGroupBy.groups 06:39 | Метод get_group() 06:48 | Метод groupby(). Группировк...
Метод VALUE_COUNTS + Тип данных 'category'. Методы Series.cat()
Просмотров 68Месяц назад
В этом видео-уроке мы продолжаем работать с категориальными данными и сегодня я расскажу, как можно упростить работу по анализу данных и сделать ее более эффективной, если использовать метод value_counts совместно с категориальным типом данных. 00:00 | Введение 00:41 | Открываем файл dresses, анализируем ассортимент магазина женской одежды 03:00 | Создаем два полных списка с фасонами и расцветк...
Методы UNIQUE, NUNIQUE, VALUE_COUNTS. Уникальные и модальные значения структур Series и DataFrame.
Просмотров 972 месяца назад
В этом видео-уроке я расскажу про базовые методы для работы с уникальными значениями в структурах Series и Dataframe. Вы познакомитеcь с методами unique(), value_counts() и nunique(), с помощью которых можно получить и подсчитать уникальные значения в серии или колонке Dataframe.Также во второй части данного урока вы узнаете о таком статистическом термине как мода, который непосредственно связа...
Методы DUPLICATED и DROP_DUPLICATES. Поиск и удаление дубликатов из структуры DataFrame
Просмотров 763 месяца назад
В этом видео я расскажу вам про метод duplicated(), который используется для поиска, извлечения и подсчета дубликатов строк в DataFrame, а также про метод drop_duplicates() - который нужен для удаления дубликатов. В следующих примерах я буду использовать структуру DataFrame, но Series также поддерживает методы duplicated() и drop_duplicates() аналогичным образом. 00:00 | Введение 00:52 | Базово...
Метод DROP. Удаление строк и столбцов из структуры DataFrame
Просмотров 673 месяца назад
В этом видео речь пойдет об удалении строк и столбцов из структуры DataFrame с помощью метода drop(). Здесь будут рассмотрены общие принципы, а ситуации, когда нам необходимо удалить, например, дублирующиеся строки или столбцы с отсутствующими значениями я рассматриваю в отдельных видео, где рассказываю о таких методах, как dropna и drop_duplicates. 00:00 | Введение 00:46 | Удаление строки по и...
Функции WHERE & SELECT библиотеки numpy. Изменение DataFrame по нескольким условиям.
Просмотров 614 месяца назад
В этом уроке я покажу Вам, как с помощью функции SELECT библиотеки numpy можно изменить структуру DataFrame по нескольким условиям. 00:00 | Введение 00:52 | Базовое использование np.where 02:03 | np.where - Пример 1 - Получить индексы строк, удовлетворяющих условию 02:29 | np.where - Пример 2 - Получить данные из конкретного столбца по определенному условию, а если условие не выполняется, получ...
Методы APPLY, MAP и REPLACE. Преобразование и замена значений структур Series и DataFrame.
Просмотров 634 месяца назад
В этом уроке мы рассмотрим еще несколько популярных инструментов, с помощью которых можно произвести преобразование и замену значений в структурах Series и DataFrame. Содержание 00:00 | Введение 00:36 | Пример 1 - Универсальные функции NumPy (поэлементные методы массивов) 01:22 | Пример 2 - Применение функции, определенной для одномерных массивов, к каждому столбцу или строке. Используем метод ...
Как заменить значения в колонке DataFrame по условию. Методы WHERE, MASK, LOC - аналоги ЕСЛИ Excel
Просмотров 1165 месяцев назад
Сегодня я покажу вам несколько популярных методов (loc, np.where, pd.DataFrame.where, pd.DataFrame.mask), с помощью которых можно изменить значение в структуре Series или DataFrame по условию. Условие (condition): значение должно быть отрицательным Если условие выполняется, производим замену на букву 'W' (new_value) 00:00 | Введение. 00:53 | Метод 1 - loc 02:03 | loc - изменение в нескольких ко...
Комбинирование перекрывающихся данных. Метод combine_first(). Заполняем NaN значениями
Просмотров 686 месяцев назад
В прошлом видео мы подробно рассмотрели методы и функции merge, join и concat, с помощью которых производится слияние или конкатенация данных. В этом видео я хотела бы проиллюстрировать ситуацию, которую нельзя выразить как слияние или конкатенацию, но которая имеет дело с объединением данных из двух отдельных структур. В этом уроке я на нескольких примерах покажу, как можно заполнить пропуски ...
Подробный разбор MERGE, JOIN & CONCAT. Типы объединения таблиц и Database-style подход в pandas.
Просмотров 1536 месяцев назад
В этом уроке я подробно расскажу о различных способах объединения данных в pandas. В начале мы вспомним принципы работы функции concat, рассмотрев различные варианты горизонтальной и вертикальной конкатенации. Основная тема данного урока -"использование Database-style подхода в pandas". Суть данного подхода в том, что используется очень быстрый способ объединения структур данных, который идеоло...
Изменение имен столбцов DataFrame. RENAME, REPLACE + SKIMPY (clean_columns)
Просмотров 488 месяцев назад
В этом уроке я расскажу вам про несколько способов, которыми вы можете переименовать колонки датафрейма или просто внести изменения в имена столбцов, например поменять стиль или регистр. 00:00 | Введение, создаем DataFrame c неподходящими именами столбцов 00:35 | Метод rename 01:09 | Атрибут columns 01:20 | columns.str.replace 01:44 | add_prefix() и add_suffix() 02:04 | Изменение столбцов с пом...
Методы ASSIGN, INSERT, CONCAT. Добавление и изменение столбцов и строк DataFrame
Просмотров 1038 месяцев назад
В этом уроке я продолжаю тему изменения структуры датафрейм и сегодня буду говорить преимущественно про добавление новых СТОЛБЦОВ - мы познакомимся с двумя новыми методами assign и insert, а также вспомним основы работы с функцией concat, то есть основные способы объединения структур - горизонтальную и вертикальную конкатенацию. План урока 00:00 | Введение 00:30 | Добавление столбца в DataFrame...
Методы SORT_VALUES & SORT_INDEX. Сортировка значений и индексов/имен строк и столбцов DataFrame
Просмотров 1029 месяцев назад
В этом уроке вы научитесь сортировать данные и индексы структур Series и DataFrame с помощью методов sort_values() и sort_index(), которые позволяют производить сортировку выбранной структуры в порядке возрастания или убывания, а также сортировать данные по нескольким столбцам.(!В более ранней версии pandas использовался сейчас уже устаревший метод sort()) План урока: 00:00 | Введение 00:40 | С...
Чтение больших файлов в pandas. Использование параметра chunksize в read_csv
Просмотров 1309 месяцев назад
В данном уроке я буду говорить о чтении больших файлов формата CSV с помощью библиотеки pandas План урока 00:00 | Введение. О чтении больших файлов в pandas 01:00 | Скачиваем файлы с сайта grouplens.org 03:04 | Использование параметра chunksize при открытии файла csv 04:05 | chunksize функция enumerate 06:07 | Метод get_chunk() 08:41 | Использование iterrows 10:36 | Работаем с файлами movies.cs...
Поиск целочисленной позиции метки строки или столбца DataFrame
Просмотров 6410 месяцев назад
Поиск целочисленной позиции метки строки или столбца DataFrame
Изменение структуры DataFrame с помощью loc и iloc
Просмотров 11410 месяцев назад
Изменение структуры DataFrame с помощью loc и iloc
Метод FILTER. Фильтрация DataFrame по именам строк и столбцов
Просмотров 5610 месяцев назад
Метод FILTER. Фильтрация DataFrame по именам строк и столбцов
Запрос данных с помощью метода QUERY (EVAL) в pandas
Просмотров 13711 месяцев назад
Запрос данных с помощью метода QUERY (EVAL) в pandas
Извлечение данных с помощью строковых методов STR.CONTAINS, STR.STARTSWITH, STR.ENDSWITH, STR.MATCH
Просмотров 7911 месяцев назад
Извлечение данных с помощью строковых методов STR.CONTAINS, STR.STARTSWITH, STR.ENDSWITH, STR.MATCH
Извлечение данных по условию. Булева индексация. Метод ISIN
Просмотров 69Год назад
Извлечение данных по условию. Булева индексация. Метод ISIN
Методы CUT и QCUT в pandas. Разделяем набор числовых данных на интервалы и категории
Просмотров 195Год назад
Методы CUT и QCUT в pandas. Разделяем набор числовых данных на интервалы и категории
Тип данных CATEGORY в pandas. Создание объекта класса CATEGORICAL. Категориальные данные в DataFrame
Просмотров 150Год назад
Тип данных CATEGORY в pandas. Создание объекта класса CATEGORICAL. Категориальные данные в DataFrame
Как скопировать таблицу с сайта или из файла сразу в DataFrame (методы read_html и read_clipboard)
Просмотров 91Год назад
Как скопировать таблицу с сайта или из файла сразу в DataFrame (методы read_html и read_clipboard)
Типы данных в pandas. Изменение и выборка типа данных (DTYPE, ASTYPE, TO_NUMERIC, TO_DATETIME)
Просмотров 114Год назад
Типы данных в pandas. Изменение и выборка типа данных (DTYPE, ASTYPE, TO_NUMERIC, TO_DATETIME)
Чтение и запись файлов формата CSV (READ_CSV, READ_TABLE, TO_CSV). Курс "Pandas для начинающих"
Просмотров 79Год назад
Чтение и запись файлов формата CSV (READ_CSV, READ_TABLE, TO_CSV). Курс "Pandas для начинающих"
LOC, ILOC, TAKE - подробный разбор подходов и методов для доступа к данным Series и DataFrame
Просмотров 163Год назад
LOC, ILOC, TAKE - подробный разбор подходов и методов для доступа к данным Series и DataFrame
Доступ к данным Series и DataFrame через атрибуты INDEX, COLUMNS, VALUES, AXES + SHAPE, SIZE и INFO
Просмотров 79Год назад
Доступ к данным Series и DataFrame через атрибуты INDEX, COLUMNS, VALUES, AXES SHAPE, SIZE и INFO
Как преобразовать Series в DataFrame - часть 2. Курс "Pandas для начинающих"
Просмотров 77Год назад
Как преобразовать Series в DataFrame - часть 2. Курс "Pandas для начинающих"
Как преобразовать Series в DataFrame - часть 1. Курс "Pandas для начинающих"
Просмотров 87Год назад
Как преобразовать Series в DataFrame - часть 1. Курс "Pandas для начинающих"

Комментарии

  • @user-qr3qx3sh1h
    @user-qr3qx3sh1h Месяц назад

    Виктория, спасибо за ваш труд. Очень понятно, а главное, полезно. Жду вторую часть с нетерпением )

    • @DataAnalystVictoria
      @DataAnalystVictoria Месяц назад

      Спасибо за обратную связь!😊 Обязательно запишу вторую часть, это вопрос свободного времени) 😅

  • @alyonastarling8881
    @alyonastarling8881 4 месяца назад

    Спасибо! Приятно Вас слушать и все понятно

    • @DataAnalystVictoria
      @DataAnalystVictoria 4 месяца назад

      И Вам спасибо за обратную связь!

  • @user-Nachum
    @user-Nachum 6 месяцев назад

    Как же вовремя , как раз хотел объединять данные по акциям с курсом USD, но к сожалению не смотря на одинаковые временные промежутки размерности всегда разные

  • @user-ol8cd3lv5w
    @user-ol8cd3lv5w 7 месяцев назад

    Было полезно в части ошибок при цепном присваивании. Буду теперь использовать loc. Спасибо!

  • @analyst_from_ufa
    @analyst_from_ufa 9 месяцев назад

    В целом всё круто, только не услышал про применение параметра "duplicates", по которому искал информацию 🙂

    • @DataAnalystVictoria
      @DataAnalystVictoria 9 месяцев назад

      Спасибо за комментарий. С параметром duplicates все довольно просто. Если вы в bins передаете список неуникальных значений (например, вот такой код: s = pd.Series(np.array([2, 4, 6, 8, 10]), index=['a', 'b', 'c', 'd', 'e'] pd.cut(s, [0, 2, 4, 6, 10, 10], labels=False, retbins=True, right=False)), и при этом у вас параметр duplicates стоит в позиции по умолчанию, то вы получите ошибку "ValueError: Bin edges must be unique: array([ 0, 2, 4, 6, 10, 10]). You can drop duplicate edges by setting the 'duplicates' kwarg", что значит, что краевые точки интевалов (передаваемые числа) должны быть уникальными, и вы можете автоматически удалить повторяющиеся элементы, если присвоите параметру duplicates значение drop: pd.cut(s, [0, 2, 4, 6, 10, 10], labels=False, retbins=True, right=False, duplicates='drop'), то есть метод cut c параметром duplicates='drop' сам удалит дубликаты, если они имеются.

  • @Mishurova.Analyst
    @Mishurova.Analyst 11 месяцев назад

    Очень крутое видео об использовании query! Все четко и без воды, помогло разобраться!

  • @nartoomeon9378
    @nartoomeon9378 Год назад

    Хмммм, регексы для аналитиков? Я думал только комп. лингвистов.

    • @DataAnalystVictoria
      @DataAnalystVictoria Год назад

      Аналитики даже лемматизацию используют периодически. Задачи бывают очень интересными )

    • @nartoomeon9378
      @nartoomeon9378 Год назад

      @@DataAnalystVictoria, в принципе, если датасет текстовый, то вроде как неудивительно. Думал вы только числовые обрабатываете.

  • @svetaonopa6341
    @svetaonopa6341 Год назад

    Спасибо большое! Очень помогли разобраться в этой теме!

    • @DataAnalystVictoria
      @DataAnalystVictoria Год назад

      И Вам спасибо за обратную связь! 😉

  • @paveltimofeev5686
    @paveltimofeev5686 Год назад

    Спасибо огромное за видео! Пожалуйста, не останавливайтесь. Есть люди, кому вы очень помогаете.

    • @DataAnalystVictoria
      @DataAnalystVictoria Год назад

      Благодарю за Ваш комментарий, Павел! Приятно осознавать свою полезность ) Останавливаться не собираюсь. Более того, сейчас готовлю материалы для открытого онлайн-курса на платформе Stepik по pandas. В его основу лягут видео этого канала + ссылки на ноутбуки видеолекций + упражнения. Всех своих подписчиков и зрителей канала обязательно приглашу на данный курс.

  • @user-Nachum
    @user-Nachum Год назад

    Отлично ! Хотелось бы увидеть какими способами можно сменить нули на np.nan в дата фрейме

    • @DataAnalystVictoria
      @DataAnalystVictoria Год назад

      Обязательно сниму видео про пропуски в данных. Заменить нули на np.nan можно с помощью метода replace: df[‘col’] = df[‘col’].replace(0, np.nan)

  • @nadezhdamishurova6975
    @nadezhdamishurova6975 Год назад

    Отличное видео!