Азы работы с pandas.DataFrame на примере задачи о Титанике.
HTML-код
- Опубликовано: 4 фев 2025
- Данные это ключ, с их помощью раскрывают преступления, оптимизирую пассажиропотоки и выигрывают войны. Что сможешь сделать с ними сегодня ты, после этой лабы зависит лишь от твоего воображения ;)!
Надеюсь что после данной лабы каждый сможет загрузив свои данные выполнить базовые исследования характера данных, понять какими признаками описывается тот или иной объект. А так же простым анализом выявить очевидные закономерности в данных.
Будет ОЧЕНЬ классно если ты, в комментариях, поделишься каким именно интересным выводам пришел поигравшись со своими данными, а не только теми что были представлены на уроке.
Ссылка на Notebook: storage.google...
Страничка с соревнованием Kaggle: www.kaggle.com...
Наша страничка на Patreon: / b0noi
Твоя поддержка очень важна для нас, если видео тебе понравилось помоги нам его распространить и не забудь подписаться на канал ;)
Наши ссылки:
• Discord-чат академии: bit.ly/2K6XQQ2
• VK - kovacademy
• FB - / kovalevskyi
• Twitter - / kovacademy
• RUclips - / kovalevskyiacademy
• LinkedIn - / 5119016
• Patreon - / b0noi
• Web site - kovalevskyi.aca...
3:04 импорт данных
4:39 удаление idишек
8:55 вывод инфы
10:30 вывести один из столбцов
10:56 подсчёт кол-во записей
12:17 визуализация кол-во данных
13:09 среднее число
13:32 построение гистограммы
17:32 избавление от nan
19:51 узнать корреляцию
Уже будучи знакомой с анализом данных приятно слушать видео. Очень дельные вещи
Интересно и не занудно, даже скорость не надо менять, спасибо
Уточню для тех кто смотрит: автор оговорился вот тут (ruclips.net/video/_D1xhwXUebI/видео.htmlm27s), это целочисленное деление, не остаток.)
За видео лайк.) Спасибо)
Кажется в 2023 другой датасет. И не понял как имена столбцов в датасете поменялись на "контсанты, определенные перед считыванием данных. У меня ничего не изменилось.
какой же качественный контент! спасибо! лайк подписка
спасибо, очень понятно и доступно!
Сленг зашкаливает.
Вы упоминали, что планируете снимать видео о TensorFlow . Ваши планы изменились? Или видео можно посмотреть на Вашем другом канале?
Очень здорово, спасибо
Как так научиться(
спасибо, очень позновательно
на 3:30 Вы говорите, что будет выводиться без print. Чего то я это не понял. У меня без принт не выводится.Что я не так делаю?
Спасибо!
Спасибо большое! Автор молодец!
Вячеслав, спасибо за видео. Продолжение будет ?
у меня некоректно работает .info() ? почему то неверно
Очень помогло, огромное спасибо!
Спасибо, хорошее видео
Огромное спасибо за видео!
А продолжение есть?
Добрый день!
Подскажите, почему у меня файл загрузился не в том виде как у вас?
joxi.ru/ZrJ1LZotMVKVkA
Колонки и значения совсем другие, возможно исходный файл был изменен.
Где взять оригинальный файл из видео для работы?
++Такая де проблема
Так вот и самый главный вопрос, как комплексно анализировать данные? Как подсчитать вероятность выживания парня 30 лет во втором классе? Методом линейной регрессии с множеством предикторов?
Бинарное дерево решений
Вячеслав, будут ли новые видео?
Супер круто!
21:30 возрастная группа 1 - выживших больше
Спасибо за видео, а можно ноутбук на github скинуть ?
Почему то функция map_to_percent выдаёт кривой датафрейм, в таком виде 1 [0.301887, 0.698113] - то есть значения скомканы в массив, сверху названий Survived нет.
Заработало только так:
def map_to_percent(r):
return pd.Series([float(v)/sum(r) for v in r])
12:08 это капитан корабля
Спасибо за видео! Подскажите как правильно сделать fillna по условию? Допустим заменить на медиану возраста для всех у кого Sex = female и Pclass = 1st?
что то типа: df.fillna(value="female")
Aleksander Klimov I
@@KovalevskyiAcademy не сработает. Нужно условие что пол определённый и класс определённый. Те заменять наны на медианы определённого класса и пола
супер
лайк
Ошибка на df[PCLASS_COL].value_counts() colab.research.google.com/drive/1_ul3DyhQOqlpXymw4k2-vBBE_v0Pls50 В csv файле 32 записи по ссылке ( а не 1313 как в видео) vincentarelbundock.github.io/Rdatasets/csv/datasets/Titanic.csv, и нет PClass столбца, есть Class, и колонка Age не содержит float данных
Спасибо за видео, очень доходчиво, по полочкам, все законспектировала, три раза пересмотрела, вот что значит опыт преподавателя - разработчика ! Супер!!! Еще бы про Kaggle сделали видео как участвовать в соревнованиях по Титанику.
слово "эпплаит" просто убило...
df[AGE_GROUP_COL] = df[AGE_COL].map(lambda age: int(age // 10))
df[:HEAD_ROWS_TO_SHOW] ошибка на этой строчке
---------------------------------------------------------------------------
ValueError Traceback (most recent call last)
in ()
----> 1 df[AGE_GROUP_COL] = df[AGE_COL].map(lambda age: int(age // 10))
2 df[:HEAD_ROWS_TO_SHOW]
/Users/konstantin/anaconda/lib/python2.7/site-packages/pandas/core/series.pyc in map(self, arg, na_action)
2175 new_values = algos.take_1d(arg._values, indexer)
2176 else:
-> 2177 new_values = map_f(values, arg)
2178
2179 return self._constructor(new_values,
pandas/src/inference.pyx in pandas.lib.map_infer (pandas/lib.c:66124)()
in (age)
----> 1 df[AGE_GROUP_COL] = df[AGE_COL].map(lambda age: int(age // 10))
2 df[:HEAD_ROWS_TO_SHOW]
ValueError: cannot convert float NaN to integer
+5
Спасибо за полезное видео!