❗❗❗Так называемое Министерство юстиции РФ признало «Важные истории» «нежелательной организацией». Так что репост этого и любого другого нашего видео может караться штрафом, а повторный репост - уголовным делом. Но никто не может запретить вам смотреть и думать. Поэтому подписывайтесь на наш канал, просите подписаться своих друзей и оставайтесь с нами - в это темное время выжить мы сможем только вместе.
Есть ли у вас возможность "починить" ссылку на файл 1? По ссылке пишет, что файл не обнаружен, а из первоисточника теперь нельзя скачивать такие объемные файлы😭. Спасибо
Обновление: из первоисточника скачалось два файла, объединил их по outer merge: df1 = pd.merge(df01, df02, on = ["measure", "location", "sex", "age", "cause", "metric", "year", "daly_val", "daly_upper", "daly_lower"], how = "outer"). В датафрейме со старых уроков, где были показатели смертности, в колонке age ответы назывались All Ages, а в новосозданном датафрейме в колонке age ответы назывались All ages, из-за чего датафреймамы с показателями смертности и DALYs не получалось объеденить по inner merge - чтоб это исправить, унифицировал содержание ответов в колонке age - оно везде стало "All ages": df2['age'] = df2['age'].replace(['All Ages'], 'All ages'). После это с inner join проблем не было
Спасибо! Нам кажется, что журналистам необязательно подробно знать NumPy, только если какие-то отдельные функции. Может, потом что-то вводное снимем. Пока можем посоветовать вот это видео, там нормально объясняют: ruclips.net/video/Dh0cdMlcrbU/видео.html
Скажите, а правильно ли сработает последний пример про чанки с функцией среднего значения? (интересуют случаи, где один год попадает на границу двух чанков)
Здравствуйте! ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА Вы правы, считать среднее по чанкам было некорректно, потому что наш код посчитал среднее отдельно для каждых 30 000 строк. А это неверно, потому что нам нужно получить среднее по всему датафрейму, а не по отдельности для каждого кусочка (чанка). Для примера лучше было бы сделать, например, так: result = chunk_df.groupby(['location']).count() вместо result = chunk_df.groupby(['cause', 'year']).agg({'death_val': 'mean'}). Тогда мы бы для примера посчитали, сколько раз упоминается каждая страна в каждом чанке, и затем сложили бы значения в чанках, чтобы получить число упоминаний стран по всему датафрейму. В отличие от среднего (mean), такой расчет будет корректным. Большое спасибо, что заметили!
❗❗❗Так называемое Министерство юстиции РФ признало «Важные истории» «нежелательной организацией». Так что репост этого и любого другого нашего видео может караться штрафом, а повторный репост - уголовным делом.
Но никто не может запретить вам смотреть и думать. Поэтому подписывайтесь на наш канал, просите подписаться своих друзей и оставайтесь с нами - в это темное время выжить мы сможем только вместе.
Спасибо вам большое прекрасная маркиза :) Замечательный базис для работы с библиотекой и все очень понятно!
Большое спасибо за ваш труд, красавица!!! Желаю профессиональных успехов!)
Очень интересно!
Спасибо за ваши полезные уроки!
P.S Ссылочка на первый файл не работает!
спасибо!
Есть ли у вас возможность "починить" ссылку на файл 1? По ссылке пишет, что файл не обнаружен, а из первоисточника теперь нельзя скачивать такие объемные файлы😭. Спасибо
Обновление: из первоисточника скачалось два файла, объединил их по outer merge: df1 = pd.merge(df01, df02, on = ["measure", "location", "sex", "age", "cause", "metric", "year", "daly_val", "daly_upper", "daly_lower"], how = "outer"). В датафрейме со старых уроков, где были показатели смертности, в колонке age ответы назывались All Ages, а в новосозданном датафрейме в колонке age ответы назывались All ages, из-за чего датафреймамы с показателями смертности и DALYs не получалось объеденить по inner merge - чтоб это исправить, унифицировал содержание ответов в колонке age - оно везде стало "All ages": df2['age'] = df2['age'].replace(['All Ages'], 'All ages'). После это с inner join проблем не было
hello,why i get 0 rows after this step: df_all = pd.merge(df1, df2, on = ['location', 'sex', 'age', 'cause', 'metric', 'year'], how = 'inner') ?
Спасибо большое! Вы молодцы! А NumPy будет?
Спасибо! Нам кажется, что журналистам необязательно подробно знать NumPy, только если какие-то отдельные функции.
Может, потом что-то вводное снимем. Пока можем посоветовать вот это видео, там нормально объясняют: ruclips.net/video/Dh0cdMlcrbU/видео.html
Скажите, а правильно ли сработает последний пример про чанки с функцией среднего значения? (интересуют случаи, где один год попадает на границу двух чанков)
Здравствуйте!
ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА
Вы правы, считать среднее по чанкам было некорректно, потому что наш код посчитал среднее отдельно для каждых 30 000 строк. А это неверно, потому что нам нужно получить среднее по всему датафрейму, а не по отдельности для каждого кусочка (чанка). Для примера лучше было бы сделать, например, так: result = chunk_df.groupby(['location']).count() вместо result = chunk_df.groupby(['cause', 'year']).agg({'death_val': 'mean'}). Тогда мы бы для примера посчитали, сколько раз упоминается каждая страна в каждом чанке, и затем сложили бы значения в чанках, чтобы получить число упоминаний стран по всему датафрейму. В отличие от среднего (mean), такой расчет будет корректным.
Большое спасибо, что заметили!
как все это прикрутить к сайту? учить джанго?