- Видео 32
- Просмотров 3 298
Аналитик данных Виктория Юферева
Добавлен 25 окт 2013
Это канал для всех желающих погрузиться в мир анализа данных. Меня зовут Виктория Юферева. Я стала аналитиком уже после 30 лет, проработав до этого более 10 лет в сфере высшего образования.
Сейчас я работаю ведущим аналитиком в ГБУ «Моя карьера» и в свободное время записываю обучающие ролики, в которых рассказываю о различных инструментах, помогающих аналитику решать рабочие задачи. В каждом уроке я стараюсь подробно раскрывать обозначенную тему - объясняю так, как хотела бы, чтобы объясняли мне.
Видео этого канала лягут в основу онлайн-курса для начинающих аналитиков. На данный момент в свободном доступе есть плейлист «Pandas для начинающих», работа над которым все еще продолжается.
Буду рада, если проделанная работа найдёт отклик у зрителей этого канала, и полученные здесь знания окажутся полезными.
Сейчас я работаю ведущим аналитиком в ГБУ «Моя карьера» и в свободное время записываю обучающие ролики, в которых рассказываю о различных инструментах, помогающих аналитику решать рабочие задачи. В каждом уроке я стараюсь подробно раскрывать обозначенную тему - объясняю так, как хотела бы, чтобы объясняли мне.
Видео этого канала лягут в основу онлайн-курса для начинающих аналитиков. На данный момент в свободном доступе есть плейлист «Pandas для начинающих», работа над которым все еще продолжается.
Буду рада, если проделанная работа найдёт отклик у зрителей этого канала, и полученные здесь знания окажутся полезными.
Группировка данных в pandas - Часть 2 - Агрегация, Фильтрация, Преобразование
В первой части урока вы познакомились с термином "агрегирование" и с наиболее популярными агрегирующими функциями, с помощью которых можно представлять данные в обобщенном виде. Также Вы узнали, что библиотека pandas поддерживает методологию "разделить-применить-объединить" (split-apply-combine).
Во второй части мы сначала рассмотрим альтернативные способы определения ключей для разбиения данных по группам И некоторые интересные методы объекта groupby, а далее будем говорить о применении различных функций к сгруппированным данным, в частности сконцентрируемся на таких методах как filter, transform и apply.
00:00 | Введение
01:05 | Вспоминаем основы группировки данных в pandas
01:31 | Простые...
Во второй части мы сначала рассмотрим альтернативные способы определения ключей для разбиения данных по группам И некоторые интересные методы объекта groupby, а далее будем говорить о применении различных функций к сгруппированным данным, в частности сконцентрируемся на таких методах как filter, transform и apply.
00:00 | Введение
01:05 | Вспоминаем основы группировки данных в pandas
01:31 | Простые...
Просмотров: 78
Видео
Метод GROUPBY. Группировка данных структуры DataFrame. Часть 1
Просмотров 125Месяц назад
Сегодня мы начнем разбирать одну из наиболее важных тем - это агрегирование и группировка данных. 00:00 | Введение 00:19 | Агрегирование (агрегация), агрегирующие функции и агрегированные данные 01:43 | Методология "split-apply-combine" ("разделить-применить-объединить" ) 03:42 | Объект GroupBy 05:56 | Атрибут DataFrameGroupBy.groups 06:39 | Метод get_group() 06:48 | Метод groupby(). Группировк...
Метод VALUE_COUNTS + Тип данных 'category'. Методы Series.cat()
Просмотров 68Месяц назад
В этом видео-уроке мы продолжаем работать с категориальными данными и сегодня я расскажу, как можно упростить работу по анализу данных и сделать ее более эффективной, если использовать метод value_counts совместно с категориальным типом данных. 00:00 | Введение 00:41 | Открываем файл dresses, анализируем ассортимент магазина женской одежды 03:00 | Создаем два полных списка с фасонами и расцветк...
Методы UNIQUE, NUNIQUE, VALUE_COUNTS. Уникальные и модальные значения структур Series и DataFrame.
Просмотров 972 месяца назад
В этом видео-уроке я расскажу про базовые методы для работы с уникальными значениями в структурах Series и Dataframe. Вы познакомитеcь с методами unique(), value_counts() и nunique(), с помощью которых можно получить и подсчитать уникальные значения в серии или колонке Dataframe.Также во второй части данного урока вы узнаете о таком статистическом термине как мода, который непосредственно связа...
Методы DUPLICATED и DROP_DUPLICATES. Поиск и удаление дубликатов из структуры DataFrame
Просмотров 763 месяца назад
В этом видео я расскажу вам про метод duplicated(), который используется для поиска, извлечения и подсчета дубликатов строк в DataFrame, а также про метод drop_duplicates() - который нужен для удаления дубликатов. В следующих примерах я буду использовать структуру DataFrame, но Series также поддерживает методы duplicated() и drop_duplicates() аналогичным образом. 00:00 | Введение 00:52 | Базово...
Метод DROP. Удаление строк и столбцов из структуры DataFrame
Просмотров 673 месяца назад
В этом видео речь пойдет об удалении строк и столбцов из структуры DataFrame с помощью метода drop(). Здесь будут рассмотрены общие принципы, а ситуации, когда нам необходимо удалить, например, дублирующиеся строки или столбцы с отсутствующими значениями я рассматриваю в отдельных видео, где рассказываю о таких методах, как dropna и drop_duplicates. 00:00 | Введение 00:46 | Удаление строки по и...
Функции WHERE & SELECT библиотеки numpy. Изменение DataFrame по нескольким условиям.
Просмотров 614 месяца назад
В этом уроке я покажу Вам, как с помощью функции SELECT библиотеки numpy можно изменить структуру DataFrame по нескольким условиям. 00:00 | Введение 00:52 | Базовое использование np.where 02:03 | np.where - Пример 1 - Получить индексы строк, удовлетворяющих условию 02:29 | np.where - Пример 2 - Получить данные из конкретного столбца по определенному условию, а если условие не выполняется, получ...
Методы APPLY, MAP и REPLACE. Преобразование и замена значений структур Series и DataFrame.
Просмотров 634 месяца назад
В этом уроке мы рассмотрим еще несколько популярных инструментов, с помощью которых можно произвести преобразование и замену значений в структурах Series и DataFrame. Содержание 00:00 | Введение 00:36 | Пример 1 - Универсальные функции NumPy (поэлементные методы массивов) 01:22 | Пример 2 - Применение функции, определенной для одномерных массивов, к каждому столбцу или строке. Используем метод ...
Как заменить значения в колонке DataFrame по условию. Методы WHERE, MASK, LOC - аналоги ЕСЛИ Excel
Просмотров 1165 месяцев назад
Сегодня я покажу вам несколько популярных методов (loc, np.where, pd.DataFrame.where, pd.DataFrame.mask), с помощью которых можно изменить значение в структуре Series или DataFrame по условию. Условие (condition): значение должно быть отрицательным Если условие выполняется, производим замену на букву 'W' (new_value) 00:00 | Введение. 00:53 | Метод 1 - loc 02:03 | loc - изменение в нескольких ко...
Комбинирование перекрывающихся данных. Метод combine_first(). Заполняем NaN значениями
Просмотров 686 месяцев назад
В прошлом видео мы подробно рассмотрели методы и функции merge, join и concat, с помощью которых производится слияние или конкатенация данных. В этом видео я хотела бы проиллюстрировать ситуацию, которую нельзя выразить как слияние или конкатенацию, но которая имеет дело с объединением данных из двух отдельных структур. В этом уроке я на нескольких примерах покажу, как можно заполнить пропуски ...
Подробный разбор MERGE, JOIN & CONCAT. Типы объединения таблиц и Database-style подход в pandas.
Просмотров 1536 месяцев назад
В этом уроке я подробно расскажу о различных способах объединения данных в pandas. В начале мы вспомним принципы работы функции concat, рассмотрев различные варианты горизонтальной и вертикальной конкатенации. Основная тема данного урока -"использование Database-style подхода в pandas". Суть данного подхода в том, что используется очень быстрый способ объединения структур данных, который идеоло...
Изменение имен столбцов DataFrame. RENAME, REPLACE + SKIMPY (clean_columns)
Просмотров 488 месяцев назад
В этом уроке я расскажу вам про несколько способов, которыми вы можете переименовать колонки датафрейма или просто внести изменения в имена столбцов, например поменять стиль или регистр. 00:00 | Введение, создаем DataFrame c неподходящими именами столбцов 00:35 | Метод rename 01:09 | Атрибут columns 01:20 | columns.str.replace 01:44 | add_prefix() и add_suffix() 02:04 | Изменение столбцов с пом...
Методы ASSIGN, INSERT, CONCAT. Добавление и изменение столбцов и строк DataFrame
Просмотров 1038 месяцев назад
В этом уроке я продолжаю тему изменения структуры датафрейм и сегодня буду говорить преимущественно про добавление новых СТОЛБЦОВ - мы познакомимся с двумя новыми методами assign и insert, а также вспомним основы работы с функцией concat, то есть основные способы объединения структур - горизонтальную и вертикальную конкатенацию. План урока 00:00 | Введение 00:30 | Добавление столбца в DataFrame...
Методы SORT_VALUES & SORT_INDEX. Сортировка значений и индексов/имен строк и столбцов DataFrame
Просмотров 1029 месяцев назад
В этом уроке вы научитесь сортировать данные и индексы структур Series и DataFrame с помощью методов sort_values() и sort_index(), которые позволяют производить сортировку выбранной структуры в порядке возрастания или убывания, а также сортировать данные по нескольким столбцам.(!В более ранней версии pandas использовался сейчас уже устаревший метод sort()) План урока: 00:00 | Введение 00:40 | С...
Чтение больших файлов в pandas. Использование параметра chunksize в read_csv
Просмотров 1309 месяцев назад
В данном уроке я буду говорить о чтении больших файлов формата CSV с помощью библиотеки pandas План урока 00:00 | Введение. О чтении больших файлов в pandas 01:00 | Скачиваем файлы с сайта grouplens.org 03:04 | Использование параметра chunksize при открытии файла csv 04:05 | chunksize функция enumerate 06:07 | Метод get_chunk() 08:41 | Использование iterrows 10:36 | Работаем с файлами movies.cs...
Поиск целочисленной позиции метки строки или столбца DataFrame
Просмотров 6410 месяцев назад
Поиск целочисленной позиции метки строки или столбца DataFrame
Изменение структуры DataFrame с помощью loc и iloc
Просмотров 11410 месяцев назад
Изменение структуры DataFrame с помощью loc и iloc
Метод FILTER. Фильтрация DataFrame по именам строк и столбцов
Просмотров 5610 месяцев назад
Метод FILTER. Фильтрация DataFrame по именам строк и столбцов
Запрос данных с помощью метода QUERY (EVAL) в pandas
Просмотров 13711 месяцев назад
Запрос данных с помощью метода QUERY (EVAL) в pandas
Извлечение данных с помощью строковых методов STR.CONTAINS, STR.STARTSWITH, STR.ENDSWITH, STR.MATCH
Просмотров 7911 месяцев назад
Извлечение данных с помощью строковых методов STR.CONTAINS, STR.STARTSWITH, STR.ENDSWITH, STR.MATCH
Извлечение данных по условию. Булева индексация. Метод ISIN
Просмотров 69Год назад
Извлечение данных по условию. Булева индексация. Метод ISIN
Методы CUT и QCUT в pandas. Разделяем набор числовых данных на интервалы и категории
Просмотров 195Год назад
Методы CUT и QCUT в pandas. Разделяем набор числовых данных на интервалы и категории
Тип данных CATEGORY в pandas. Создание объекта класса CATEGORICAL. Категориальные данные в DataFrame
Просмотров 150Год назад
Тип данных CATEGORY в pandas. Создание объекта класса CATEGORICAL. Категориальные данные в DataFrame
Как скопировать таблицу с сайта или из файла сразу в DataFrame (методы read_html и read_clipboard)
Просмотров 91Год назад
Как скопировать таблицу с сайта или из файла сразу в DataFrame (методы read_html и read_clipboard)
Типы данных в pandas. Изменение и выборка типа данных (DTYPE, ASTYPE, TO_NUMERIC, TO_DATETIME)
Просмотров 114Год назад
Типы данных в pandas. Изменение и выборка типа данных (DTYPE, ASTYPE, TO_NUMERIC, TO_DATETIME)
Чтение и запись файлов формата CSV (READ_CSV, READ_TABLE, TO_CSV). Курс "Pandas для начинающих"
Просмотров 79Год назад
Чтение и запись файлов формата CSV (READ_CSV, READ_TABLE, TO_CSV). Курс "Pandas для начинающих"
LOC, ILOC, TAKE - подробный разбор подходов и методов для доступа к данным Series и DataFrame
Просмотров 163Год назад
LOC, ILOC, TAKE - подробный разбор подходов и методов для доступа к данным Series и DataFrame
Доступ к данным Series и DataFrame через атрибуты INDEX, COLUMNS, VALUES, AXES + SHAPE, SIZE и INFO
Просмотров 79Год назад
Доступ к данным Series и DataFrame через атрибуты INDEX, COLUMNS, VALUES, AXES SHAPE, SIZE и INFO
Как преобразовать Series в DataFrame - часть 2. Курс "Pandas для начинающих"
Просмотров 77Год назад
Как преобразовать Series в DataFrame - часть 2. Курс "Pandas для начинающих"
Как преобразовать Series в DataFrame - часть 1. Курс "Pandas для начинающих"
Просмотров 87Год назад
Как преобразовать Series в DataFrame - часть 1. Курс "Pandas для начинающих"
Виктория, спасибо за ваш труд. Очень понятно, а главное, полезно. Жду вторую часть с нетерпением )
Спасибо за обратную связь!😊 Обязательно запишу вторую часть, это вопрос свободного времени) 😅
Спасибо! Приятно Вас слушать и все понятно
И Вам спасибо за обратную связь!
Как же вовремя , как раз хотел объединять данные по акциям с курсом USD, но к сожалению не смотря на одинаковые временные промежутки размерности всегда разные
Было полезно в части ошибок при цепном присваивании. Буду теперь использовать loc. Спасибо!
В целом всё круто, только не услышал про применение параметра "duplicates", по которому искал информацию 🙂
Спасибо за комментарий. С параметром duplicates все довольно просто. Если вы в bins передаете список неуникальных значений (например, вот такой код: s = pd.Series(np.array([2, 4, 6, 8, 10]), index=['a', 'b', 'c', 'd', 'e'] pd.cut(s, [0, 2, 4, 6, 10, 10], labels=False, retbins=True, right=False)), и при этом у вас параметр duplicates стоит в позиции по умолчанию, то вы получите ошибку "ValueError: Bin edges must be unique: array([ 0, 2, 4, 6, 10, 10]). You can drop duplicate edges by setting the 'duplicates' kwarg", что значит, что краевые точки интевалов (передаваемые числа) должны быть уникальными, и вы можете автоматически удалить повторяющиеся элементы, если присвоите параметру duplicates значение drop: pd.cut(s, [0, 2, 4, 6, 10, 10], labels=False, retbins=True, right=False, duplicates='drop'), то есть метод cut c параметром duplicates='drop' сам удалит дубликаты, если они имеются.
Очень крутое видео об использовании query! Все четко и без воды, помогло разобраться!
Хмммм, регексы для аналитиков? Я думал только комп. лингвистов.
Аналитики даже лемматизацию используют периодически. Задачи бывают очень интересными )
@@DataAnalystVictoria, в принципе, если датасет текстовый, то вроде как неудивительно. Думал вы только числовые обрабатываете.
Спасибо большое! Очень помогли разобраться в этой теме!
И Вам спасибо за обратную связь! 😉
Спасибо огромное за видео! Пожалуйста, не останавливайтесь. Есть люди, кому вы очень помогаете.
Благодарю за Ваш комментарий, Павел! Приятно осознавать свою полезность ) Останавливаться не собираюсь. Более того, сейчас готовлю материалы для открытого онлайн-курса на платформе Stepik по pandas. В его основу лягут видео этого канала + ссылки на ноутбуки видеолекций + упражнения. Всех своих подписчиков и зрителей канала обязательно приглашу на данный курс.
Отлично ! Хотелось бы увидеть какими способами можно сменить нули на np.nan в дата фрейме
Обязательно сниму видео про пропуски в данных. Заменить нули на np.nan можно с помощью метода replace: df[‘col’] = df[‘col’].replace(0, np.nan)
Отличное видео!