Лекция 1. Описательные статистики. Квантили, квартили. Гистограммы

Поделиться
HTML-код
  • Опубликовано: 15 авг 2018
  • compscicenter.ru/
    Описательные статистики. Квантили, квартили. Гистограммы. Ядерные оценки плотности.
    Лекция №1 в курсе "Анализ данных на Python в примерах и задачах. Часть 1" (весна 2018).
    Преподаватель курса: Вадим Леонардович Аббакумов

Комментарии • 88

  • @charozetta
    @charozetta 22 дня назад

    Первый раз в жизни я с реальным интересом слушаю лекции по статистике....

  • @user-fi5hr6us4r
    @user-fi5hr6us4r 4 года назад +38

    Лучшее, чем можно заняться в самоизоляции

    • @user-ek4vg8mv6n
      @user-ek4vg8mv6n 3 года назад

      Крутое видео!
      Посмотри лучший канал с понятным объяснением сложных задач🤓❤️ ruclips.net/video/MlxMJRZs3zg/видео.html

  • @nicko6815
    @nicko6815 4 года назад +5

    Благодарности за Ваш труд!!!

  • @user-sc1ui1wp9x
    @user-sc1ui1wp9x 4 года назад +13

    Очень приятный преподаватель, слушаю с невероятным интересом и советую всем друзьям, видео этого лектора.

  • @ivanaaa6049
    @ivanaaa6049 5 лет назад +36

    Большое спасибо за лекции! Уже думал, что придется статистику с помощью R изучать, а этот лектор уже курс и на Python создал! Очень хорошо, что есть возможность использовать современные быстро- развивающиеся технологии.

  • @user-nm8jd9vn2s
    @user-nm8jd9vn2s 5 лет назад +4

    Большое спасибо за материал. Очень интересно.

  • @user-tv7qu6qh1u
    @user-tv7qu6qh1u Год назад +5

    И умный, и добрый, и остроумный))) слушать лекцию - одно удовольствие)) спасибо

  • @JestZastrelshik
    @JestZastrelshik 2 года назад +1

    Спасибо, Вадим! Прекрасно объясняете!

  • @user-yf5uc3ug4w
    @user-yf5uc3ug4w 3 года назад +3

    Нет слов, это просто клад.

  • @Irades
    @Irades 2 года назад +2

    Потрясающий лектор, спасибо!)

  • @YuriyGontar
    @YuriyGontar Год назад

    Прекрасная лекция, спасибо! Снимайте еще!

  • @mariekey913
    @mariekey913 3 года назад +2

    Спасибо за лекцию! Все было понятно и хорошо объяснено, с примерами из жизни

  • @dmitriy7192
    @dmitriy7192 Год назад +5

    Авторизировался на RUclips только для того, чтобы поставить "лайк" лекциям! Спасибо большое Вадим Леонардович за ваши лекции, смотрел на одном дыхании, как сериал с Netflix)

  • @dmitriyhd5630
    @dmitriyhd5630 4 года назад +1

    Бомба! Большое спасибо за Лекции!

  • @user-gi8tt9fz6x
    @user-gi8tt9fz6x 2 года назад +1

    Про ядерные оценки плотности на мой взгляд можно почетче. и Вообще наверное можно все тоже самое и побыстрее, однако, это ведь запись лекции. Лектору огромное спасибо, что выкладывает в общий доступ материалы.

  • @user-zp7ey1sl5b
    @user-zp7ey1sl5b 4 года назад +9

    Супер лектор, вообще класс) Смотрел с удовольствием

  • @sfffq7236
    @sfffq7236 4 года назад +4

    Пожалуй, один из лучших лекторов, которых я слышал в жизни. Говорит просто о сложных вещах.

  • @Dmitrykholodov
    @Dmitrykholodov 2 года назад

    Очень интересно послушать. Спасибо!

  • @user-cf9pn9tr4w
    @user-cf9pn9tr4w 3 года назад +21

    Если пробуете на Pyton 3.8+ то строка "AH['SalePrice'].hist(bins=60, normed=1);" выдаст ошибку.
    Для получения результата замените normed на density.

  • @gogetcha5430
    @gogetcha5430 2 года назад

    Спасибо за лекцию!

  • @user-mn3ds2il4o
    @user-mn3ds2il4o 2 года назад +4

    Обе части лекций просто великолепны. Да, код местами неоптимален, но не это главное. Главное - потрясающее об'яснение, чувство материала на кончиках пальцев и отдельное спасибо за интеллигентный, питерский юмор - разобран на цитаты ))

  • @shandi1241
    @shandi1241 4 года назад +17

    "эти люди часто делают ошибки, они этим в основном и занимаются" хех :-D

  • @georgemichael6884
    @georgemichael6884 2 года назад

    лектор отличный!только ради его манеры изложения стоит смотреть!

  • @user-jd2jk1mx7s
    @user-jd2jk1mx7s 5 лет назад +2

    Подскажите, пожалуйста, а где взять все эти датасеты - продажа домов в Айове и тд?

  • @powerquerypowerbi7808
    @powerquerypowerbi7808 Год назад

    спасибо!

  • @UnitXXVII
    @UnitXXVII Год назад

    Вадим Леонардович, а можете поделиться ноутбуками из лекций или хотя бы датафреймами?

  • @user-fs4ux8yh7e
    @user-fs4ux8yh7e Год назад +2

    Всем привет, а где можно взять файлы которые он использует в лекциях ?

  • @Uni-Coder
    @Uni-Coder 4 года назад +1

    26:00 Пример с рулеткой шикарен. Согласен чуть более чем полностью.
    Если вы точно знаете, что распределение 50/50 - не имеет значения, на что ставить.
    Если у вас нет априорной информации о распределении, и всё, что у вас есть - это накопленная статистика, ставьте на красное.
    -Но как объяснена ядерная оценка плотности, мне не понравилось.-

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 4 года назад +2

      Не надо так загадочно... Что не понравилось с ядерными оценками? Логические ошибки, скрипт, цыканье зубом?...

    • @Uni-Coder
      @Uni-Coder 4 года назад

      @@Vadim_Abbakumov Если посмотреть внимательно и вдумчиво, то всё нормально. Просто очень непривычно :)

  • @user-nw9dx4fj9s
    @user-nw9dx4fj9s 3 года назад

    пару секунд вспоминал что такое R`n`B, время летит конечно)))

  • @user-fk3gy5qg5c
    @user-fk3gy5qg5c 5 лет назад

    Подскажите, пожалуйста, если один из предикторов имеет бимодальное распределение ,то стоит ли строить 2 разные модели ,разбив предиктор на 2 унимодальных интервала ?

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 5 лет назад +3

      В моем примере с фордом Мустанг обязательно. если пики гистограммы не интерпретируемы, то иногда нет...

  • @igorpadalko3907
    @igorpadalko3907 4 года назад

    Здравствуйте,
    А есть ответы по заданиям которые были в курсе? Для самопроверки. Заранее ОГРОМНОЕ СПАСИБО!

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 4 года назад

      Нет. Многие задачи имеют несколько решений...

  • @MrZlobec
    @MrZlobec 5 лет назад +3

    Добрый день! Отличный курс. Правильно ли я понимаю что Автор видит Python как более перспективный язык для анализа данных по сравнению с R?

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 5 лет назад +13

      Нет.
      IMHO на сегодняшний день выбор однозначен:
      и R и Python одновременно.
      Что-то лучше реализовано в R (например прогнозирование).
      В Python намного лучше Deep Learning.
      Если все же выбирать что-то одно, то R лучше.
      Для знающих Python заметно больше вакансий.

    • @viacheslavspitsyn2995
      @viacheslavspitsyn2995 5 лет назад +1

      @@Vadim_Abbakumov Но если вакансий больше для знающих Python, то почему нужно выбирать R?

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 5 лет назад +11

      Для задач продвинутой аналитики в питоне мало процедур, и они часто плохого качества.
      В этих случаях лучше использовать R.
      @@viacheslavspitsyn2995

    • @user-fn8pe2dd6r
      @user-fn8pe2dd6r 4 года назад +1

      @@Vadim_Abbakumov Как сказал один очень уважаемый человек, если вы статист и хотите немного программировать - выбирайте R. Если вы больше программист и немного статистик - выбирайте питон

    • @Uni-Coder
      @Uni-Coder 4 года назад +3

      Думаю, через несколько лет от R будет полный отказ. Синтаксис этого языка ужасен.
      Но пока он нужен, потому что на нём действительно есть ВСЁ.
      Приходится иногда самостоятельно разрабатывать кластеризацию, случайный лес и т. п,. и тут R служит тестовой базой, чтобы было на чём протестировать свои алгоритмы.

  • @user-fk3gy5qg5c
    @user-fk3gy5qg5c 5 лет назад +1

    Подскажите,пожалуйста, зачем нам нужно стандартизировать данные при использовании линейных алгоритмов машинного обучения? Нужно ли стандартизировать данные при анализе одной гистограммы?

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 5 лет назад +2

      В линейной регрессии, наивном байесе и дискриминантном анализе не надо. В гистограммах не надо. После стандартизации наблюдения перестают быть независимыми, это плохо. Иногда (кластерный анализ, нейронные сети) стандартизация - неизбежное зло.

    • @user-wd2xw9oh7w
      @user-wd2xw9oh7w 3 года назад

      @@Vadim_Abbakumov простите, а где про это можно прочитать на русском, или дальше в лекциях будет о том, почему перестают быть независимыми? Просто интуитивно совсем непонятно, почему от простого изменения масштаба пропадает независимость [стандартизация это ведь просто перевести всё в один масштаб?]

    • @user-wd2xw9oh7w
      @user-wd2xw9oh7w 3 года назад

      ой, перепутал, видимо имеется в виду приведение выборки к такой, у которой выборочное среднее 0 и разброс 1, но все равно если честно непонятно, как такое преобразование может сделать независимые величины зависимыми?

    • @user-wd2xw9oh7w
      @user-wd2xw9oh7w 3 года назад

      @@Vadim_Abbakumov не подскажете? Так и не нашел нигде про это...

    • @Cyrill_Murashev
      @Cyrill_Murashev 10 месяцев назад

      @@user-wd2xw9oh7w, всё просто. При стандартизации по методу z-score используются выборочные средние и стандартные отклонения. Они зависят от всех наблюдений. Следовательно, при вычислении z-меток для отдельных наблюдений используются данные о всей выборке, т.е. количественный признак отдельного наблюдения уже не "сам по себе", а функция от значений всех набюлюдений выборки.

  • @ivanvekhov6743
    @ivanvekhov6743 3 года назад +1

    вопрос первый, Где кнопка "Поставить лектору пивас?". второй вопросец: какие 2-3 основные книжки стоит читать как учебники/доп, литературу к такому курсу?

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 3 года назад +10

      Hastie, Tibshirani, Friedman
      The Elements of Statistical Learning: Data Mining, Inference, and Prediction
      2 edition
      Бесплатно, есть русский перевод (за деньги)
      Goodfellow, Bengio, Courville
      Deep Learning
      Бесплатно, есть русский перевод (за деньги)
      Geron
      Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems
      2 edition
      Есть русский перевод (за деньги)

  • @ivanaaa6049
    @ivanaaa6049 5 лет назад +1

    Можно где- то "ноутбуки" с лекции найти?

    • @romanshpilev767
      @romanshpilev767 5 лет назад +10

      Вот здесь
      compscicenter.ru/courses/data-mining-python/2018-spring/classes/
      Не ко всем заданиям ноутбуки прикрепили, но есть слайды и датасеты

    • @ivanaaa6049
      @ivanaaa6049 5 лет назад

      Спасибо!

  • @yellowknife4111
    @yellowknife4111 3 года назад

    у меня было +27 ставок подряд

  • @oplesser
    @oplesser 5 лет назад +2

    Добрый день! Спасибо за Ваши лекции! Скажите пожалуйста, а почему так разнится время лекций? Часть лекций больше одного часа (есть даже больше двух часов) а часть лекций около 20-30 минут....

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 5 лет назад +26

      Видеозаписи переклеены так, чтобы на лекцию приходилась одна тема от начала до конца. Мне показалось, что многим неудобно, когда интересующая их тема начинается в середине лекции.

    • @oplesser
      @oplesser 5 лет назад

      Понял, спасибо!

  • @user-cr4us8qg7r
    @user-cr4us8qg7r 2 года назад

    Здравствуйте Вадим Леонардович! Вы говорили что делали коммерческие работы по кластеризации для разных организаций. Был ли экономический эффект от вашей работы и если да, то можно ли его выразить в цифрах?

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 2 года назад

      Нельзя выразить в цифрах. У меня кластеризация - промежуточный (хотя и важный) этап решения большой задачи, обычно маркетинговой. Эффект легко оценить для всей задачи, а не ее этапа. Когда модель построена, теоретически можно провести эксперимент, и посмотреть, что будет, если исключить этап с кластеризации. Но на практике кто будет этим заниматься.
      Как, например, Вы будете оценивать экономический эффект от предварительной стандартизации переменных?

    • @user-cr4us8qg7r
      @user-cr4us8qg7r 2 года назад

      @@Vadim_Abbakumov спасибо огромное за ответ. Просто я уже давно занимаюсь автоматизация бизнеса и хочется выйти за рамки банальных задач. Поэтому изучаю в том числе по Вашим лекциям различные статистические методы и нейронные сети. Но сложно идёт, по несколько раз пересматриваю и переслушиваю лекции

    • @user-cr4us8qg7r
      @user-cr4us8qg7r 2 года назад

      @@Vadim_Abbakumov тогда короткий вопрос. Я по старой статистике определил кластеры клиентов. А далее у меня появляется новый клиент у которого не достаёт некоторых данных (средний чек, количество покупок). Я хочу спрогнозировать в какой кластер он попадет(я вычисляют расстояния) и в итоге он оказывается в 3-х кластерах. А далее я вывожу вероятность попадания в тот или иной кластер из 3-х, на основании количества покупателей(попавших туда при обучении) в каждом кластере. Такая модель имеет права на жизнь? Или есть какой то принципиальный изъян?

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 2 года назад

      @@user-cr4us8qg7r Поздравляю. Вы независимо изобрели нечеткую кластеризацию (fuzzy clustering, C-means). Дальше гуглите сами, те, кто придумал метод до Вас продвинулись далеко.

    • @user-cr4us8qg7r
      @user-cr4us8qg7r 2 года назад

      @@Vadim_Abbakumov спасибо Вам за ответы.

  • @juliakorovkina1663
    @juliakorovkina1663 Год назад

    Где взять самую первую базу данных? Как скачать?

    • @Vadim_Abbakumov
      @Vadim_Abbakumov Год назад +1

      Как называется файл? ameshousing Ну так гуглите это слово...

  • @Booogieman
    @Booogieman 4 года назад +4

    лайк за взломанный Total Commander!

    • @nikolaisalikov1257
      @nikolaisalikov1257 2 года назад

      Зашел написать этот комментарий.

  • @MinisterDorado
    @MinisterDorado Год назад

    19:40 Те люди, кто парсят сайты делают много ошибок, они этим в основном и занимаются. LOL

  • @vladodl3445
    @vladodl3445 4 года назад

    Я как понял,курс не для новичков?

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 4 года назад

      Для новичков в анализе данных. С базовым владением питоном

    • @vladodl3445
      @vladodl3445 4 года назад

      @@Vadim_Abbakumov спасибо,а не подскажишь годный курс по питону?)

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 4 года назад +1

      @@vladodl3445 не особенно в теме... курс Лебедева хороший, но он не для новичков

    • @user-ek4vg8mv6n
      @user-ek4vg8mv6n 3 года назад

      @@Vadim_Abbakumov Крутое видео!
      Посмотри лучший канал с понятным объяснением сложных задач🤓❤️ ruclips.net/video/MlxMJRZs3zg/видео.html

  • @gadkiy_designer
    @gadkiy_designer 8 месяцев назад

    Вот мне интересно с первых секнд лекций - какого хрена преподают на примере домов в айове, а не на данных наших рынков? Нет что ли на наших примерах задач?

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 3 месяца назад

      В том-то и дело, что нет...

  • @_meta_data_9992
    @_meta_data_9992 3 года назад

    Анализ данных с нуля, data science, python: ruclips.net/video/qWBNK0ydGUM/видео.html

  • @user-nq1ne7uq2t
    @user-nq1ne7uq2t 2 года назад +3

    Некоторые обьяснения очень путаные. Квантиль обьяснял так, что только запутал. Нет чтобы нарисовать распределение и показать. Слушатели знают основы статистики? Если квантили не знают, то, видимо, не сильно знают. Если нет, то обьяснения никуда не годятся. Диаграмму зачем строят? Не прозвучало даже слово "нормальное распределение"... Вообще, глаголит путано, скачет с одного понятия на другое...ерунда, а не лекция.

    • @Arian_9615
      @Arian_9615 6 месяцев назад +1

      Полностью согласен, я сам знаю что такое квантиль, но мне было сложно понять по его объяснению, из всех возможных объяснений, лектор выбрал самое сложное непонятное.

  • @ostrov11
    @ostrov11 4 года назад

    препод давно был в Айове ??? и был ли вообще ???

    • @TTYY-ml7rb
      @TTYY-ml7rb 4 года назад

      И к чему это?

    • @ostrov11
      @ostrov11 4 года назад

      @@TTYY-ml7rb к тому же, к чему и Айова

    • @dariaarkhipova5419
      @dariaarkhipova5419 4 года назад +1

      Зря вы так, лектор шикарен