Азы работы с pandas.DataFrame на примере задачи о Титанике.

Поделиться
HTML-код
  • Опубликовано: 4 фев 2025
  • Данные это ключ, с их помощью раскрывают преступления, оптимизирую пассажиропотоки и выигрывают войны. Что сможешь сделать с ними сегодня ты, после этой лабы зависит лишь от твоего воображения ;)!
    Надеюсь что после данной лабы каждый сможет загрузив свои данные выполнить базовые исследования характера данных, понять какими признаками описывается тот или иной объект. А так же простым анализом выявить очевидные закономерности в данных.
    Будет ОЧЕНЬ классно если ты, в комментариях, поделишься каким именно интересным выводам пришел поигравшись со своими данными, а не только теми что были представлены на уроке.
    Ссылка на Notebook: storage.google...
    Страничка с соревнованием Kaggle: www.kaggle.com...
    Наша страничка на Patreon: / b0noi
    Твоя поддержка очень важна для нас, если видео тебе понравилось помоги нам его распространить и не забудь подписаться на канал ;)
    Наши ссылки:
    • Discord-чат академии: bit.ly/2K6XQQ2
    • VK - kovacademy
    • FB - / kovalevskyi
    • Twitter - / kovacademy
    • RUclips - / kovalevskyiacademy
    • LinkedIn - / 5119016
    • Patreon - / b0noi
    • Web site - kovalevskyi.aca...

Комментарии • 45

  • @ZipOfficial
    @ZipOfficial Год назад +3

    3:04 импорт данных
    4:39 удаление idишек
    8:55 вывод инфы
    10:30 вывести один из столбцов
    10:56 подсчёт кол-во записей
    12:17 визуализация кол-во данных
    13:09 среднее число
    13:32 построение гистограммы
    17:32 избавление от nan
    19:51 узнать корреляцию

  • @dariaarkhipova5419
    @dariaarkhipova5419 4 года назад +2

    Уже будучи знакомой с анализом данных приятно слушать видео. Очень дельные вещи

  • @Xapek2008
    @Xapek2008 6 лет назад +3

    Интересно и не занудно, даже скорость не надо менять, спасибо

  • @lekkaverhovcev6334
    @lekkaverhovcev6334 8 лет назад +15

    Уточню для тех кто смотрит: автор оговорился вот тут (ruclips.net/video/_D1xhwXUebI/видео.htmlm27s), это целочисленное деление, не остаток.)
    За видео лайк.) Спасибо)

  • @Storks40
    @Storks40 Год назад

    Кажется в 2023 другой датасет. И не понял как имена столбцов в датасете поменялись на "контсанты, определенные перед считыванием данных. У меня ничего не изменилось.

  • @seychasov
    @seychasov 4 года назад +1

    какой же качественный контент! спасибо! лайк подписка

  • @apozyak
    @apozyak 2 года назад +1

    спасибо, очень понятно и доступно!

  • @ДмитрийШалимов-ч5у
    @ДмитрийШалимов-ч5у 3 года назад

    Сленг зашкаливает.

  • @tetianaprokhorova347
    @tetianaprokhorova347 6 лет назад +8

    Вы упоминали, что планируете снимать видео о TensorFlow . Ваши планы изменились? Или видео можно посмотреть на Вашем другом канале?

  • @kotleta7643
    @kotleta7643 2 года назад

    Очень здорово, спасибо

  • @ВалерияНовикова-п9з
    @ВалерияНовикова-п9з 2 года назад +1

    Как так научиться(

  • @РоманМомотов-ш9й
    @РоманМомотов-ш9й 2 года назад

    спасибо, очень позновательно

  • @DAROM-TK
    @DAROM-TK 5 лет назад

    на 3:30 Вы говорите, что будет выводиться без print. Чего то я это не понял. У меня без принт не выводится.Что я не так делаю?

  • @egoregoroff104
    @egoregoroff104 3 года назад +2

    Спасибо!

  • @Yayakimenko
    @Yayakimenko 4 года назад

    Спасибо большое! Автор молодец!

  • @Gleb615
    @Gleb615 6 лет назад

    Вячеслав, спасибо за видео. Продолжение будет ?

  • @VakaramGolang
    @VakaramGolang 3 года назад

    у меня некоректно работает .info() ? почему то неверно

  • @SnowyToly
    @SnowyToly 4 года назад

    Очень помогло, огромное спасибо!

  • @vitaliynabiev2530
    @vitaliynabiev2530 3 года назад

    Спасибо, хорошее видео

  • @VARYHIN
    @VARYHIN 6 лет назад

    Огромное спасибо за видео!

  • @MorozowPavlik
    @MorozowPavlik 4 года назад

    А продолжение есть?

  • @ОлегКозырис-л8с
    @ОлегКозырис-л8с 4 года назад +3

    Добрый день!
    Подскажите, почему у меня файл загрузился не в том виде как у вас?
    joxi.ru/ZrJ1LZotMVKVkA
    Колонки и значения совсем другие, возможно исходный файл был изменен.
    Где взять оригинальный файл из видео для работы?

    • @kabalchik5085
      @kabalchik5085 4 года назад +1

      ++Такая де проблема

  • @MaxM1
    @MaxM1 7 лет назад +5

    Так вот и самый главный вопрос, как комплексно анализировать данные? Как подсчитать вероятность выживания парня 30 лет во втором классе? Методом линейной регрессии с множеством предикторов?

  • @АндрейМакаров-с1й4у

    Вячеслав, будут ли новые видео?

  • @andreybelyaev5703
    @andreybelyaev5703 5 лет назад

    Супер круто!

  • @MaxM1
    @MaxM1 7 лет назад +2

    21:30 возрастная группа 1 - выживших больше

  • @AndreyKryajev
    @AndreyKryajev 6 лет назад

    Спасибо за видео, а можно ноутбук на github скинуть ?

  • @ПавелОсокин-ш3г
    @ПавелОсокин-ш3г 4 года назад

    Почему то функция map_to_percent выдаёт кривой датафрейм, в таком виде 1 [0.301887, 0.698113] - то есть значения скомканы в массив, сверху названий Survived нет.

    • @ПавелОсокин-ш3г
      @ПавелОсокин-ш3г 4 года назад +2

      Заработало только так:
      def map_to_percent(r):
      return pd.Series([float(v)/sum(r) for v in r])

  • @umidjonsadatov3426
    @umidjonsadatov3426 4 года назад +1

    12:08 это капитан корабля

  • @aleksanderklimov3172
    @aleksanderklimov3172 7 лет назад

    Спасибо за видео! Подскажите как правильно сделать fillna по условию? Допустим заменить на медиану возраста для всех у кого Sex = female и Pclass = 1st?

    • @KovalevskyiAcademy
      @KovalevskyiAcademy  7 лет назад +2

      что то типа: df.fillna(value="female")

    • @reginashavaleeva3832
      @reginashavaleeva3832 7 лет назад

      Aleksander Klimov I

    • @costa86
      @costa86 2 года назад

      @@KovalevskyiAcademy не сработает. Нужно условие что пол определённый и класс определённый. Те заменять наны на медианы определённого класса и пола

  • @s78ap
    @s78ap 6 лет назад

    супер

  • @llllpavle
    @llllpavle 5 лет назад

    лайк

  • @javadeveloper-o5j
    @javadeveloper-o5j 5 лет назад +2

    Ошибка на df[PCLASS_COL].value_counts() colab.research.google.com/drive/1_ul3DyhQOqlpXymw4k2-vBBE_v0Pls50 В csv файле 32 записи по ссылке ( а не 1313 как в видео) vincentarelbundock.github.io/Rdatasets/csv/datasets/Titanic.csv, и нет PClass столбца, есть Class, и колонка Age не содержит float данных
    Спасибо за видео, очень доходчиво, по полочкам, все законспектировала, три раза пересмотрела, вот что значит опыт преподавателя - разработчика ! Супер!!! Еще бы про Kaggle сделали видео как участвовать в соревнованиях по Титанику.

  • @chernobyl1999
    @chernobyl1999 6 лет назад +1

    слово "эпплаит" просто убило...

  • @glepfingerman7731
    @glepfingerman7731 7 лет назад

    df[AGE_GROUP_COL] = df[AGE_COL].map(lambda age: int(age // 10))
    df[:HEAD_ROWS_TO_SHOW] ошибка на этой строчке
    ---------------------------------------------------------------------------
    ValueError Traceback (most recent call last)
    in ()
    ----> 1 df[AGE_GROUP_COL] = df[AGE_COL].map(lambda age: int(age // 10))
    2 df[:HEAD_ROWS_TO_SHOW]
    /Users/konstantin/anaconda/lib/python2.7/site-packages/pandas/core/series.pyc in map(self, arg, na_action)
    2175 new_values = algos.take_1d(arg._values, indexer)
    2176 else:
    -> 2177 new_values = map_f(values, arg)
    2178
    2179 return self._constructor(new_values,
    pandas/src/inference.pyx in pandas.lib.map_infer (pandas/lib.c:66124)()
    in (age)
    ----> 1 df[AGE_GROUP_COL] = df[AGE_COL].map(lambda age: int(age // 10))
    2 df[:HEAD_ROWS_TO_SHOW]
    ValueError: cannot convert float NaN to integer

  • @atlant1707
    @atlant1707 6 лет назад +1

    +5

  • @serega9422
    @serega9422 4 года назад

    Спасибо за полезное видео!