Python | Урок 17: Библиотека Pandas, часть 3

Мастерская Важных историй

Просмотров 8 тыс.

250

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 4 фев 2025

Комментарии • 14

@istories_workshop 2 года назад ⁺¹
❗❗❗Так называемое Министерство юстиции РФ признало «Важные истории» «нежелательной организацией». Так что репост этого и любого другого нашего видео может караться штрафом, а повторный репост - уголовным делом.
Но никто не может запретить вам смотреть и думать. Поэтому подписывайтесь на наш канал, просите подписаться своих друзей и оставайтесь с нами - в это темное время выжить мы сможем только вместе.
@Anshegar 2 года назад ⁺²
Спасибо вам большое прекрасная маркиза :) Замечательный базис для работы с библиотекой и все очень понятно!
@magnosierra8291 3 года назад ⁺¹
Большое спасибо за ваш труд, красавица!!! Желаю профессиональных успехов!)
@return_1101 3 года назад
Очень интересно!
@antonalexandrov9476 2 года назад ⁺²
Спасибо за ваши полезные уроки!
P.S Ссылочка на первый файл не работает!
@romanlapin178 3 года назад
спасибо!
@valera1025 2 года назад ⁺²
Есть ли у вас возможность "починить" ссылку на файл 1? По ссылке пишет, что файл не обнаружен, а из первоисточника теперь нельзя скачивать такие объемные файлы😭. Спасибо
@valera1025 2 года назад
Обновление: из первоисточника скачалось два файла, объединил их по outer merge: df1 = pd.merge(df01, df02, on = ["measure", "location", "sex", "age", "cause", "metric", "year", "daly_val", "daly_upper", "daly_lower"], how = "outer"). В датафрейме со старых уроков, где были показатели смертности, в колонке age ответы назывались All Ages, а в новосозданном датафрейме в колонке age ответы назывались All ages, из-за чего датафреймамы с показателями смертности и DALYs не получалось объеденить по inner merge - чтоб это исправить, унифицировал содержание ответов в колонке age - оно везде стало "All ages": df2['age'] = df2['age'].replace(['All Ages'], 'All ages'). После это с inner join проблем не было
@jovitabuinickaite5927 Год назад
hello,why i get 0 rows after this step: df_all = pd.merge(df1, df2, on = ['location', 'sex', 'age', 'cause', 'metric', 'year'], how = 'inner') ?
@elnursh 3 года назад ⁺³
Спасибо большое! Вы молодцы! А NumPy будет?
@istories_workshop 3 года назад ⁺¹
Спасибо! Нам кажется, что журналистам необязательно подробно знать NumPy, только если какие-то отдельные функции.
Может, потом что-то вводное снимем. Пока можем посоветовать вот это видео, там нормально объясняют: ruclips.net/video/Dh0cdMlcrbU/видео.html
@AnatoliK 3 года назад ⁺³
Скажите, а правильно ли сработает последний пример про чанки с функцией среднего значения? (интересуют случаи, где один год попадает на границу двух чанков)
@istories_workshop 3 года назад ⁺⁴
Здравствуйте!
ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА
Вы правы, считать среднее по чанкам было некорректно, потому что наш код посчитал среднее отдельно для каждых 30 000 строк. А это неверно, потому что нам нужно получить среднее по всему датафрейму, а не по отдельности для каждого кусочка (чанка). Для примера лучше было бы сделать, например, так: result = chunk_df.groupby(['location']).count() вместо result = chunk_df.groupby(['cause', 'year']).agg({'death_val': 'mean'}). Тогда мы бы для примера посчитали, сколько раз упоминается каждая страна в каждом чанке, и затем сложили бы значения в чанках, чтобы получить число упоминаний стран по всему датафрейму. В отличие от среднего (mean), такой расчет будет корректным.
Большое спасибо, что заметили!
@dd-pe5dp 3 года назад
как все это прикрутить к сайту? учить джанго?

Следующие

Автовоспроизведение

Устанавливаем Visual Studio Code и изучаем команды терминала | Робот для анализа госконтрактов