Видео 32
Просмотров 3 298

Метод GROUPBY. Группировка данных структуры DataFrame. Часть 1

16:00

Метод VALUE_COUNTS + Тип данных 'category'. Методы Series.cat()

6:34

Методы UNIQUE, NUNIQUE, VALUE_COUNTS. Уникальные и модальные значения структур Series и DataFrame.

20:49

Методы DUPLICATED и DROP_DUPLICATES. Поиск и удаление дубликатов из структуры DataFrame

6:10

Метод DROP. Удаление строк и столбцов из структуры DataFrame

10:25

Функции WHERE & SELECT библиотеки numpy. Изменение DataFrame по нескольким условиям.

5:04

Группировка данных в pandas - Часть 2 - Агрегация, Фильтрация, Преобразование

В первой части урока вы познакомились с термином "агрегирование" и с наиболее популярными агрегирующими функциями, с помощью которых можно представлять данные в обобщенном виде. Также Вы узнали, что библиотека pandas поддерживает методологию "разделить-применить-объединить" (split-apply-combine).
Во второй части мы сначала рассмотрим альтернативные способы определения ключей для разбиения данных по группам И некоторые интересные методы объекта groupby, а далее будем говорить о применении различных функций к сгруппированным данным, в частности сконцентрируемся на таких методах как filter, transform и apply.
00:00 | Введение
01:05 | Вспоминаем основы группировки данных в pandas
01:31 | Простые...

Видео

Метод GROUPBY. Группировка данных структуры DataFrame. Часть 1

16:00

Метод GROUPBY. Группировка данных структуры DataFrame. Часть 1

Просмотров 125Месяц назад

Сегодня мы начнем разбирать одну из наиболее важных тем - это агрегирование и группировка данных. 00:00 | Введение 00:19 | Агрегирование (агрегация), агрегирующие функции и агрегированные данные 01:43 | Методология "split-apply-combine" ("разделить-применить-объединить" ) 03:42 | Объект GroupBy 05:56 | Атрибут DataFrameGroupBy.groups 06:39 | Метод get_group() 06:48 | Метод groupby(). Группировк...

Метод VALUE_COUNTS + Тип данных 'category'. Методы Series.cat()

6:34

Метод VALUE_COUNTS + Тип данных 'category'. Методы Series.cat()

Просмотров 68Месяц назад

В этом видео-уроке мы продолжаем работать с категориальными данными и сегодня я расскажу, как можно упростить работу по анализу данных и сделать ее более эффективной, если использовать метод value_counts совместно с категориальным типом данных. 00:00 | Введение 00:41 | Открываем файл dresses, анализируем ассортимент магазина женской одежды 03:00 | Создаем два полных списка с фасонами и расцветк...

Методы UNIQUE, NUNIQUE, VALUE_COUNTS. Уникальные и модальные значения структур Series и DataFrame.

20:49

Методы UNIQUE, NUNIQUE, VALUE_COUNTS. Уникальные и модальные значения структур Series и DataFrame.

Просмотров 972 месяца назад

В этом видео-уроке я расскажу про базовые методы для работы с уникальными значениями в структурах Series и Dataframe. Вы познакомитеcь с методами unique(), value_counts() и nunique(), с помощью которых можно получить и подсчитать уникальные значения в серии или колонке Dataframe.Также во второй части данного урока вы узнаете о таком статистическом термине как мода, который непосредственно связа...

Методы DUPLICATED и DROP_DUPLICATES. Поиск и удаление дубликатов из структуры DataFrame

6:10

Методы DUPLICATED и DROP_DUPLICATES. Поиск и удаление дубликатов из структуры DataFrame

Просмотров 763 месяца назад

В этом видео я расскажу вам про метод duplicated(), который используется для поиска, извлечения и подсчета дубликатов строк в DataFrame, а также про метод drop_duplicates() - который нужен для удаления дубликатов. В следующих примерах я буду использовать структуру DataFrame, но Series также поддерживает методы duplicated() и drop_duplicates() аналогичным образом. 00:00 | Введение 00:52 | Базово...

Метод DROP. Удаление строк и столбцов из структуры DataFrame

10:25

Метод DROP. Удаление строк и столбцов из структуры DataFrame

Просмотров 673 месяца назад

В этом видео речь пойдет об удалении строк и столбцов из структуры DataFrame с помощью метода drop(). Здесь будут рассмотрены общие принципы, а ситуации, когда нам необходимо удалить, например, дублирующиеся строки или столбцы с отсутствующими значениями я рассматриваю в отдельных видео, где рассказываю о таких методах, как dropna и drop_duplicates. 00:00 | Введение 00:46 | Удаление строки по и...

Функции WHERE & SELECT библиотеки numpy. Изменение DataFrame по нескольким условиям.

5:04

Функции WHERE & SELECT библиотеки numpy. Изменение DataFrame по нескольким условиям.

Просмотров 614 месяца назад

В этом уроке я покажу Вам, как с помощью функции SELECT библиотеки numpy можно изменить структуру DataFrame по нескольким условиям. 00:00 | Введение 00:52 | Базовое использование np.where 02:03 | np.where - Пример 1 - Получить индексы строк, удовлетворяющих условию 02:29 | np.where - Пример 2 - Получить данные из конкретного столбца по определенному условию, а если условие не выполняется, получ...

Методы APPLY, MAP и REPLACE. Преобразование и замена значений структур Series и DataFrame.

8:00

Методы APPLY, MAP и REPLACE. Преобразование и замена значений структур Series и DataFrame.

Просмотров 634 месяца назад

В этом уроке мы рассмотрим еще несколько популярных инструментов, с помощью которых можно произвести преобразование и замену значений в структурах Series и DataFrame. Содержание 00:00 | Введение 00:36 | Пример 1 - Универсальные функции NumPy (поэлементные методы массивов) 01:22 | Пример 2 - Применение функции, определенной для одномерных массивов, к каждому столбцу или строке. Используем метод ...

Как заменить значения в колонке DataFrame по условию. Методы WHERE, MASK, LOC - аналоги ЕСЛИ Excel

8:59

Как заменить значения в колонке DataFrame по условию. Методы WHERE, MASK, LOC - аналоги ЕСЛИ Excel

Просмотров 1165 месяцев назад

Сегодня я покажу вам несколько популярных методов (loc, np.where, pd.DataFrame.where, pd.DataFrame.mask), с помощью которых можно изменить значение в структуре Series или DataFrame по условию. Условие (condition): значение должно быть отрицательным Если условие выполняется, производим замену на букву 'W' (new_value) 00:00 | Введение. 00:53 | Метод 1 - loc 02:03 | loc - изменение в нескольких ко...

Комбинирование перекрывающихся данных. Метод combine_first(). Заполняем NaN значениями

6:59

Комбинирование перекрывающихся данных. Метод combine_first(). Заполняем NaN значениями

Просмотров 686 месяцев назад

В прошлом видео мы подробно рассмотрели методы и функции merge, join и concat, с помощью которых производится слияние или конкатенация данных. В этом видео я хотела бы проиллюстрировать ситуацию, которую нельзя выразить как слияние или конкатенацию, но которая имеет дело с объединением данных из двух отдельных структур. В этом уроке я на нескольких примерах покажу, как можно заполнить пропуски ...

Подробный разбор MERGE, JOIN & CONCAT. Типы объединения таблиц и Database-style подход в pandas.

35:21

Подробный разбор MERGE, JOIN & CONCAT. Типы объединения таблиц и Database-style подход в pandas.

Просмотров 1536 месяцев назад

В этом уроке я подробно расскажу о различных способах объединения данных в pandas. В начале мы вспомним принципы работы функции concat, рассмотрев различные варианты горизонтальной и вертикальной конкатенации. Основная тема данного урока -"использование Database-style подхода в pandas". Суть данного подхода в том, что используется очень быстрый способ объединения структур данных, который идеоло...

Изменение имен столбцов DataFrame. RENAME, REPLACE + SKIMPY (clean_columns)

4:49

Изменение имен столбцов DataFrame. RENAME, REPLACE + SKIMPY (clean_columns)

Просмотров 488 месяцев назад

В этом уроке я расскажу вам про несколько способов, которыми вы можете переименовать колонки датафрейма или просто внести изменения в имена столбцов, например поменять стиль или регистр. 00:00 | Введение, создаем DataFrame c неподходящими именами столбцов 00:35 | Метод rename 01:09 | Атрибут columns 01:20 | columns.str.replace 01:44 | add_prefix() и add_suffix() 02:04 | Изменение столбцов с пом...

Методы ASSIGN, INSERT, CONCAT. Добавление и изменение столбцов и строк DataFrame

12:58

Методы ASSIGN, INSERT, CONCAT. Добавление и изменение столбцов и строк DataFrame

Просмотров 1038 месяцев назад

В этом уроке я продолжаю тему изменения структуры датафрейм и сегодня буду говорить преимущественно про добавление новых СТОЛБЦОВ - мы познакомимся с двумя новыми методами assign и insert, а также вспомним основы работы с функцией concat, то есть основные способы объединения структур - горизонтальную и вертикальную конкатенацию. План урока 00:00 | Введение 00:30 | Добавление столбца в DataFrame...

Методы SORT_VALUES & SORT_INDEX. Сортировка значений и индексов/имен строк и столбцов DataFrame

14:45

Методы SORT_VALUES & SORT_INDEX. Сортировка значений и индексов/имен строк и столбцов DataFrame

Просмотров 1029 месяцев назад

В этом уроке вы научитесь сортировать данные и индексы структур Series и DataFrame с помощью методов sort_values() и sort_index(), которые позволяют производить сортировку выбранной структуры в порядке возрастания или убывания, а также сортировать данные по нескольким столбцам.(!В более ранней версии pandas использовался сейчас уже устаревший метод sort()) План урока: 00:00 | Введение 00:40 | С...

Чтение больших файлов в pandas. Использование параметра chunksize в read_csv

15:41

Чтение больших файлов в pandas. Использование параметра chunksize в read_csv

Просмотров 1309 месяцев назад

В данном уроке я буду говорить о чтении больших файлов формата CSV с помощью библиотеки pandas План урока 00:00 | Введение. О чтении больших файлов в pandas 01:00 | Скачиваем файлы с сайта grouplens.org 03:04 | Использование параметра chunksize при открытии файла csv 04:05 | chunksize функция enumerate 06:07 | Метод get_chunk() 08:41 | Использование iterrows 10:36 | Работаем с файлами movies.cs...

Поиск целочисленной позиции метки строки или столбца DataFrame

5:08

Поиск целочисленной позиции метки строки или столбца DataFrame

Просмотров 6410 месяцев назад

Поиск целочисленной позиции метки строки или столбца DataFrame

Изменение структуры DataFrame с помощью loc и iloc

13:27

Изменение структуры DataFrame с помощью loc и iloc

Просмотров 11410 месяцев назад

Изменение структуры DataFrame с помощью loc и iloc

Метод FILTER. Фильтрация DataFrame по именам строк и столбцов

9:02

Метод FILTER. Фильтрация DataFrame по именам строк и столбцов

Просмотров 5610 месяцев назад

Метод FILTER. Фильтрация DataFrame по именам строк и столбцов

Запрос данных с помощью метода QUERY (EVAL) в pandas

16:34

Запрос данных с помощью метода QUERY (EVAL) в pandas

Просмотров 13711 месяцев назад

Запрос данных с помощью метода QUERY (EVAL) в pandas

Извлечение данных с помощью строковых методов STR.CONTAINS, STR.STARTSWITH, STR.ENDSWITH, STR.MATCH

16:45

Извлечение данных с помощью строковых методов STR.CONTAINS, STR.STARTSWITH, STR.ENDSWITH, STR.MATCH

Просмотров 7911 месяцев назад

Извлечение данных с помощью строковых методов STR.CONTAINS, STR.STARTSWITH, STR.ENDSWITH, STR.MATCH

Извлечение данных по условию. Булева индексация. Метод ISIN

12:27

Извлечение данных по условию. Булева индексация. Метод ISIN

Просмотров 69Год назад

Извлечение данных по условию. Булева индексация. Метод ISIN

Методы CUT и QCUT в pandas. Разделяем набор числовых данных на интервалы и категории

31:21

Методы CUT и QCUT в pandas. Разделяем набор числовых данных на интервалы и категории

Просмотров 195Год назад

Методы CUT и QCUT в pandas. Разделяем набор числовых данных на интервалы и категории

Тип данных CATEGORY в pandas. Создание объекта класса CATEGORICAL. Категориальные данные в DataFrame

17:17

Тип данных CATEGORY в pandas. Создание объекта класса CATEGORICAL. Категориальные данные в DataFrame

Просмотров 150Год назад

Тип данных CATEGORY в pandas. Создание объекта класса CATEGORICAL. Категориальные данные в DataFrame

Как скопировать таблицу с сайта или из файла сразу в DataFrame (методы read_html и read_clipboard)

6:10

Как скопировать таблицу с сайта или из файла сразу в DataFrame (методы read_html и read_clipboard)

Просмотров 91Год назад

Как скопировать таблицу с сайта или из файла сразу в DataFrame (методы read_html и read_clipboard)

Типы данных в pandas. Изменение и выборка типа данных (DTYPE, ASTYPE, TO_NUMERIC, TO_DATETIME)

12:41

Типы данных в pandas. Изменение и выборка типа данных (DTYPE, ASTYPE, TO_NUMERIC, TO_DATETIME)

Просмотров 114Год назад

Типы данных в pandas. Изменение и выборка типа данных (DTYPE, ASTYPE, TO_NUMERIC, TO_DATETIME)

Чтение и запись файлов формата CSV (READ_CSV, READ_TABLE, TO_CSV). Курс "Pandas для начинающих"

8:58

Чтение и запись файлов формата CSV (READ_CSV, READ_TABLE, TO_CSV). Курс "Pandas для начинающих"

Просмотров 79Год назад

Чтение и запись файлов формата CSV (READ_CSV, READ_TABLE, TO_CSV). Курс "Pandas для начинающих"

LOC, ILOC, TAKE - подробный разбор подходов и методов для доступа к данным Series и DataFrame

48:04

LOC, ILOC, TAKE - подробный разбор подходов и методов для доступа к данным Series и DataFrame

Просмотров 163Год назад

LOC, ILOC, TAKE - подробный разбор подходов и методов для доступа к данным Series и DataFrame

Доступ к данным Series и DataFrame через атрибуты INDEX, COLUMNS, VALUES, AXES + SHAPE, SIZE и INFO

10:21

Доступ к данным Series и DataFrame через атрибуты INDEX, COLUMNS, VALUES, AXES + SHAPE, SIZE и INFO

Просмотров 79Год назад

Доступ к данным Series и DataFrame через атрибуты INDEX, COLUMNS, VALUES, AXES SHAPE, SIZE и INFO

Как преобразовать Series в DataFrame - часть 2. Курс "Pandas для начинающих"

8:46

Как преобразовать Series в DataFrame - часть 2. Курс "Pandas для начинающих"

Просмотров 77Год назад

Как преобразовать Series в DataFrame - часть 2. Курс "Pandas для начинающих"

Как преобразовать Series в DataFrame - часть 1. Курс "Pandas для начинающих"

5:34

Как преобразовать Series в DataFrame - часть 1. Курс "Pandas для начинающих"

Просмотров 87Год назад

Как преобразовать Series в DataFrame - часть 1. Курс "Pandas для начинающих"

@user-qr3qx3sh1h Месяц назад
Виктория, спасибо за ваш труд. Очень понятно, а главное, полезно. Жду вторую часть с нетерпением )
@DataAnalystVictoria Месяц назад
Спасибо за обратную связь!😊 Обязательно запишу вторую часть, это вопрос свободного времени) 😅
@alyonastarling8881 4 месяца назад
Спасибо! Приятно Вас слушать и все понятно
@DataAnalystVictoria 4 месяца назад
И Вам спасибо за обратную связь!
@user-Nachum 6 месяцев назад
Как же вовремя , как раз хотел объединять данные по акциям с курсом USD, но к сожалению не смотря на одинаковые временные промежутки размерности всегда разные
@user-ol8cd3lv5w 7 месяцев назад
Было полезно в части ошибок при цепном присваивании. Буду теперь использовать loc. Спасибо!
@analyst_from_ufa 9 месяцев назад
В целом всё круто, только не услышал про применение параметра "duplicates", по которому искал информацию 🙂
@DataAnalystVictoria 9 месяцев назад
Спасибо за комментарий. С параметром duplicates все довольно просто. Если вы в bins передаете список неуникальных значений (например, вот такой код: s = pd.Series(np.array([2, 4, 6, 8, 10]), index=['a', 'b', 'c', 'd', 'e'] pd.cut(s, [0, 2, 4, 6, 10, 10], labels=False, retbins=True, right=False)), и при этом у вас параметр duplicates стоит в позиции по умолчанию, то вы получите ошибку "ValueError: Bin edges must be unique: array([ 0, 2, 4, 6, 10, 10]). You can drop duplicate edges by setting the 'duplicates' kwarg", что значит, что краевые точки интевалов (передаваемые числа) должны быть уникальными, и вы можете автоматически удалить повторяющиеся элементы, если присвоите параметру duplicates значение drop: pd.cut(s, [0, 2, 4, 6, 10, 10], labels=False, retbins=True, right=False, duplicates='drop'), то есть метод cut c параметром duplicates='drop' сам удалит дубликаты, если они имеются.
@Mishurova.Analyst 11 месяцев назад
Очень крутое видео об использовании query! Все четко и без воды, помогло разобраться!
@nartoomeon9378 Год назад
Хмммм, регексы для аналитиков? Я думал только комп. лингвистов.
@DataAnalystVictoria Год назад
Аналитики даже лемматизацию используют периодически. Задачи бывают очень интересными )
@nartoomeon9378 Год назад
@@DataAnalystVictoria, в принципе, если датасет текстовый, то вроде как неудивительно. Думал вы только числовые обрабатываете.
@svetaonopa6341 Год назад
Спасибо большое! Очень помогли разобраться в этой теме!
@DataAnalystVictoria Год назад
И Вам спасибо за обратную связь! 😉
@paveltimofeev5686 Год назад
Спасибо огромное за видео! Пожалуйста, не останавливайтесь. Есть люди, кому вы очень помогаете.
@DataAnalystVictoria Год назад
Благодарю за Ваш комментарий, Павел! Приятно осознавать свою полезность ) Останавливаться не собираюсь. Более того, сейчас готовлю материалы для открытого онлайн-курса на платформе Stepik по pandas. В его основу лягут видео этого канала + ссылки на ноутбуки видеолекций + упражнения. Всех своих подписчиков и зрителей канала обязательно приглашу на данный курс.
@user-Nachum Год назад
Отлично ! Хотелось бы увидеть какими способами можно сменить нули на np.nan в дата фрейме
@DataAnalystVictoria Год назад
Обязательно сниму видео про пропуски в данных. Заменить нули на np.nan можно с помощью метода replace: df[‘col’] = df[‘col’].replace(0, np.nan)
@nadezhdamishurova6975 Год назад
Отличное видео!

Аналитик данных Виктория Юферева

Видео

Комментарии