Лекция 1. Описательные статистики. Квантили, квартили. Гистограммы

Поделиться
HTML-код
  • Опубликовано: 4 фев 2025

Комментарии • 92

  • @dmitriy7192
    @dmitriy7192 2 года назад +8

    Авторизировался на RUclips только для того, чтобы поставить "лайк" лекциям! Спасибо большое Вадим Леонардович за ваши лекции, смотрел на одном дыхании, как сериал с Netflix)

  • @ivanaaa6049
    @ivanaaa6049 6 лет назад +37

    Большое спасибо за лекции! Уже думал, что придется статистику с помощью R изучать, а этот лектор уже курс и на Python создал! Очень хорошо, что есть возможность использовать современные быстро- развивающиеся технологии.

  • @СветланаСаа
    @СветланаСаа 2 года назад +5

    И умный, и добрый, и остроумный))) слушать лекцию - одно удовольствие)) спасибо

  • @АнтонТеплов-д3ч
    @АнтонТеплов-д3ч 4 года назад +15

    Очень приятный преподаватель, слушаю с невероятным интересом и советую всем друзьям, видео этого лектора.

  • @sfffq7236
    @sfffq7236 4 года назад +4

    Пожалуй, один из лучших лекторов, которых я слышал в жизни. Говорит просто о сложных вещах.

  • @ОбуховАлександр-ш6м
    @ОбуховАлександр-ш6м 2 года назад +5

    Обе части лекций просто великолепны. Да, код местами неоптимален, но не это главное. Главное - потрясающее об'яснение, чувство материала на кончиках пальцев и отдельное спасибо за интеллигентный, питерский юмор - разобран на цитаты ))

  • @charozetta
    @charozetta 9 месяцев назад

    Первый раз в жизни я с реальным интересом слушаю лекции по статистике....

  • @АлександрПыдрин
    @АлександрПыдрин 4 года назад +37

    Лучшее, чем можно заняться в самоизоляции

    • @Gamezz-y9d
      @Gamezz-y9d 3 года назад

      Крутое видео!
      Посмотри лучший канал с понятным объяснением сложных задач🤓❤️ ruclips.net/video/MlxMJRZs3zg/видео.html

  • @ЮлияГраница-н3р
    @ЮлияГраница-н3р 3 года назад +1

    Про ядерные оценки плотности на мой взгляд можно почетче. и Вообще наверное можно все тоже самое и побыстрее, однако, это ведь запись лекции. Лектору огромное спасибо, что выкладывает в общий доступ материалы.

  • @dicloniusN35
    @dicloniusN35 3 месяца назад

    Нравится преподаватель, не то что некоторые в универах))

  • @МаксимТолстобров-и5в
    @МаксимТолстобров-и5в 4 года назад +22

    Если пробуете на Pyton 3.8+ то строка "AH['SalePrice'].hist(bins=60, normed=1);" выдаст ошибку.
    Для получения результата замените normed на density.

  • @ИгорьПодройкин
    @ИгорьПодройкин 4 года назад +3

    Нет слов, это просто клад.

  • @ЕвгенийАндреев-з2э
    @ЕвгенийАндреев-з2э 5 лет назад +9

    Супер лектор, вообще класс) Смотрел с удовольствием

  • @Irades
    @Irades 3 года назад +2

    Потрясающий лектор, спасибо!)

  • @georgemichael6884
    @georgemichael6884 3 года назад

    лектор отличный!только ради его манеры изложения стоит смотреть!

  • @mariekey913
    @mariekey913 3 года назад +2

    Спасибо за лекцию! Все было понятно и хорошо объяснено, с примерами из жизни

  • @YuriyGontar
    @YuriyGontar 2 года назад

    Прекрасная лекция, спасибо! Снимайте еще!

  • @JestZastrelshik
    @JestZastrelshik 3 года назад +1

    Спасибо, Вадим! Прекрасно объясняете!

  • @nicko6815
    @nicko6815 5 лет назад +5

    Благодарности за Ваш труд!!!

  • @Uni-Coder
    @Uni-Coder 4 года назад +1

    26:00 Пример с рулеткой шикарен. Согласен чуть более чем полностью.
    Если вы точно знаете, что распределение 50/50 - не имеет значения, на что ставить.
    Если у вас нет априорной информации о распределении, и всё, что у вас есть - это накопленная статистика, ставьте на красное.
    -Но как объяснена ядерная оценка плотности, мне не понравилось.-

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 4 года назад +3

      Не надо так загадочно... Что не понравилось с ядерными оценками? Логические ошибки, скрипт, цыканье зубом?...

    • @Uni-Coder
      @Uni-Coder 4 года назад

      @@Vadim_Abbakumov Если посмотреть внимательно и вдумчиво, то всё нормально. Просто очень непривычно :)

  • @СергейМедведев-р8л
    @СергейМедведев-р8л 5 лет назад +4

    Большое спасибо за материал. Очень интересно.

  • @shandi1241
    @shandi1241 4 года назад +17

    "эти люди часто делают ошибки, они этим в основном и занимаются" хех :-D

  • @ВячеславПетров-ф8ъ
    @ВячеславПетров-ф8ъ 2 года назад +2

    Всем привет, а где можно взять файлы которые он использует в лекциях ?

  • @dmitriyhd5630
    @dmitriyhd5630 5 лет назад +1

    Бомба! Большое спасибо за Лекции!

  • @UnitXXVII
    @UnitXXVII Год назад

    Вадим Леонардович, а можете поделиться ноутбуками из лекций или хотя бы датафреймами?

  • @Dmitrykholodov
    @Dmitrykholodov 3 года назад

    Очень интересно послушать. Спасибо!

  • @ivanvekhov6743
    @ivanvekhov6743 4 года назад +2

    вопрос первый, Где кнопка "Поставить лектору пивас?". второй вопросец: какие 2-3 основные книжки стоит читать как учебники/доп, литературу к такому курсу?

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 4 года назад +11

      Hastie, Tibshirani, Friedman
      The Elements of Statistical Learning: Data Mining, Inference, and Prediction
      2 edition
      Бесплатно, есть русский перевод (за деньги)
      Goodfellow, Bengio, Courville
      Deep Learning
      Бесплатно, есть русский перевод (за деньги)
      Geron
      Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems
      2 edition
      Есть русский перевод (за деньги)

  • @gogetcha5430
    @gogetcha5430 2 года назад

    Спасибо за лекцию!

  • @СергейНазаров-з3о
    @СергейНазаров-з3о 6 лет назад +1

    Подскажите, пожалуйста, а где взять все эти датасеты - продажа домов в Айове и тд?

  • @ДмитрийЖ-п8ж
    @ДмитрийЖ-п8ж 4 года назад

    пару секунд вспоминал что такое R`n`B, время летит конечно)))

  • @МаксимБ-з3ю
    @МаксимБ-з3ю 5 лет назад

    Подскажите, пожалуйста, если один из предикторов имеет бимодальное распределение ,то стоит ли строить 2 разные модели ,разбив предиктор на 2 унимодальных интервала ?

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 5 лет назад +3

      В моем примере с фордом Мустанг обязательно. если пики гистограммы не интерпретируемы, то иногда нет...

  • @Voronza
    @Voronza 8 месяцев назад

    9я минута. Кроме перечисленных шкал есть ещё абсолютная.

    • @Voronza
      @Voronza 8 месяцев назад

      И шкала равных отношений

  • @МаксимБ-з3ю
    @МаксимБ-з3ю 6 лет назад +1

    Подскажите,пожалуйста, зачем нам нужно стандартизировать данные при использовании линейных алгоритмов машинного обучения? Нужно ли стандартизировать данные при анализе одной гистограммы?

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 6 лет назад +2

      В линейной регрессии, наивном байесе и дискриминантном анализе не надо. В гистограммах не надо. После стандартизации наблюдения перестают быть независимыми, это плохо. Иногда (кластерный анализ, нейронные сети) стандартизация - неизбежное зло.

    • @СергейМельников-л8ъ
      @СергейМельников-л8ъ 4 года назад

      @@Vadim_Abbakumov простите, а где про это можно прочитать на русском, или дальше в лекциях будет о том, почему перестают быть независимыми? Просто интуитивно совсем непонятно, почему от простого изменения масштаба пропадает независимость [стандартизация это ведь просто перевести всё в один масштаб?]

    • @СергейМельников-л8ъ
      @СергейМельников-л8ъ 4 года назад

      ой, перепутал, видимо имеется в виду приведение выборки к такой, у которой выборочное среднее 0 и разброс 1, но все равно если честно непонятно, как такое преобразование может сделать независимые величины зависимыми?

    • @СергейМельников-л8ъ
      @СергейМельников-л8ъ 4 года назад

      @@Vadim_Abbakumov не подскажете? Так и не нашел нигде про это...

    • @Cyrill_Murashev
      @Cyrill_Murashev Год назад

      @@СергейМельников-л8ъ, всё просто. При стандартизации по методу z-score используются выборочные средние и стандартные отклонения. Они зависят от всех наблюдений. Следовательно, при вычислении z-меток для отдельных наблюдений используются данные о всей выборке, т.е. количественный признак отдельного наблюдения уже не "сам по себе", а функция от значений всех набюлюдений выборки.

  • @MrZlobec
    @MrZlobec 6 лет назад +3

    Добрый день! Отличный курс. Правильно ли я понимаю что Автор видит Python как более перспективный язык для анализа данных по сравнению с R?

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 6 лет назад +13

      Нет.
      IMHO на сегодняшний день выбор однозначен:
      и R и Python одновременно.
      Что-то лучше реализовано в R (например прогнозирование).
      В Python намного лучше Deep Learning.
      Если все же выбирать что-то одно, то R лучше.
      Для знающих Python заметно больше вакансий.

    • @viacheslavspitsyn2995
      @viacheslavspitsyn2995 6 лет назад +2

      @@Vadim_Abbakumov Но если вакансий больше для знающих Python, то почему нужно выбирать R?

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 6 лет назад +11

      Для задач продвинутой аналитики в питоне мало процедур, и они часто плохого качества.
      В этих случаях лучше использовать R.
      @@viacheslavspitsyn2995

    • @какаяразница-х3щ
      @какаяразница-х3щ 5 лет назад +1

      @@Vadim_Abbakumov Как сказал один очень уважаемый человек, если вы статист и хотите немного программировать - выбирайте R. Если вы больше программист и немного статистик - выбирайте питон

    • @Uni-Coder
      @Uni-Coder 4 года назад +4

      Думаю, через несколько лет от R будет полный отказ. Синтаксис этого языка ужасен.
      Но пока он нужен, потому что на нём действительно есть ВСЁ.
      Приходится иногда самостоятельно разрабатывать кластеризацию, случайный лес и т. п,. и тут R служит тестовой базой, чтобы было на чём протестировать свои алгоритмы.

  • @igorpadalko3907
    @igorpadalko3907 5 лет назад

    Здравствуйте,
    А есть ответы по заданиям которые были в курсе? Для самопроверки. Заранее ОГРОМНОЕ СПАСИБО!

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 5 лет назад

      Нет. Многие задачи имеют несколько решений...

  • @oplesser
    @oplesser 6 лет назад +2

    Добрый день! Спасибо за Ваши лекции! Скажите пожалуйста, а почему так разнится время лекций? Часть лекций больше одного часа (есть даже больше двух часов) а часть лекций около 20-30 минут....

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 6 лет назад +26

      Видеозаписи переклеены так, чтобы на лекцию приходилась одна тема от начала до конца. Мне показалось, что многим неудобно, когда интересующая их тема начинается в середине лекции.

    • @oplesser
      @oplesser 6 лет назад

      Понял, спасибо!

  • @powerquerypowerbi7808
    @powerquerypowerbi7808 Год назад

    спасибо!

  • @juliakorovkina1663
    @juliakorovkina1663 2 года назад

    Где взять самую первую базу данных? Как скачать?

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 2 года назад +1

      Как называется файл? ameshousing Ну так гуглите это слово...

  • @ivanaaa6049
    @ivanaaa6049 6 лет назад +1

    Можно где- то "ноутбуки" с лекции найти?

    • @romanshpilev767
      @romanshpilev767 6 лет назад +9

      Вот здесь
      compscicenter.ru/courses/data-mining-python/2018-spring/classes/
      Не ко всем заданиям ноутбуки прикрепили, но есть слайды и датасеты

    • @ivanaaa6049
      @ivanaaa6049 6 лет назад

      Спасибо!

  • @МихаилИванов-я4й9д
    @МихаилИванов-я4й9д 3 года назад

    Здравствуйте Вадим Леонардович! Вы говорили что делали коммерческие работы по кластеризации для разных организаций. Был ли экономический эффект от вашей работы и если да, то можно ли его выразить в цифрах?

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 3 года назад +1

      Нельзя выразить в цифрах. У меня кластеризация - промежуточный (хотя и важный) этап решения большой задачи, обычно маркетинговой. Эффект легко оценить для всей задачи, а не ее этапа. Когда модель построена, теоретически можно провести эксперимент, и посмотреть, что будет, если исключить этап с кластеризации. Но на практике кто будет этим заниматься.
      Как, например, Вы будете оценивать экономический эффект от предварительной стандартизации переменных?

    • @МихаилИванов-я4й9д
      @МихаилИванов-я4й9д 3 года назад +1

      @@Vadim_Abbakumov спасибо огромное за ответ. Просто я уже давно занимаюсь автоматизация бизнеса и хочется выйти за рамки банальных задач. Поэтому изучаю в том числе по Вашим лекциям различные статистические методы и нейронные сети. Но сложно идёт, по несколько раз пересматриваю и переслушиваю лекции

    • @МихаилИванов-я4й9д
      @МихаилИванов-я4й9д 3 года назад

      @@Vadim_Abbakumov тогда короткий вопрос. Я по старой статистике определил кластеры клиентов. А далее у меня появляется новый клиент у которого не достаёт некоторых данных (средний чек, количество покупок). Я хочу спрогнозировать в какой кластер он попадет(я вычисляют расстояния) и в итоге он оказывается в 3-х кластерах. А далее я вывожу вероятность попадания в тот или иной кластер из 3-х, на основании количества покупателей(попавших туда при обучении) в каждом кластере. Такая модель имеет права на жизнь? Или есть какой то принципиальный изъян?

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 3 года назад

      @@МихаилИванов-я4й9д Поздравляю. Вы независимо изобрели нечеткую кластеризацию (fuzzy clustering, C-means). Дальше гуглите сами, те, кто придумал метод до Вас продвинулись далеко.

    • @МихаилИванов-я4й9д
      @МихаилИванов-я4й9д 3 года назад

      @@Vadim_Abbakumov спасибо Вам за ответы.

  • @nx8wh
    @nx8wh 5 месяцев назад

    это что за универ

  • @Booogieman
    @Booogieman 4 года назад +5

    лайк за взломанный Total Commander!

    • @nikolaisalikov1257
      @nikolaisalikov1257 3 года назад +1

      Зашел написать этот комментарий.

  • @vladodl3445
    @vladodl3445 5 лет назад

    Я как понял,курс не для новичков?

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 5 лет назад

      Для новичков в анализе данных. С базовым владением питоном

    • @vladodl3445
      @vladodl3445 5 лет назад

      @@Vadim_Abbakumov спасибо,а не подскажишь годный курс по питону?)

    • @Vadim_Abbakumov
      @Vadim_Abbakumov 5 лет назад +1

      @@vladodl3445 не особенно в теме... курс Лебедева хороший, но он не для новичков

    • @Gamezz-y9d
      @Gamezz-y9d 3 года назад

      @@Vadim_Abbakumov Крутое видео!
      Посмотри лучший канал с понятным объяснением сложных задач🤓❤️ ruclips.net/video/MlxMJRZs3zg/видео.html

  • @yellowknife4111
    @yellowknife4111 3 года назад

    у меня было +27 ставок подряд

  • @gadkiy_designer
    @gadkiy_designer Год назад

    Вот мне интересно с первых секнд лекций - какого хрена преподают на примере домов в айове, а не на данных наших рынков? Нет что ли на наших примерах задач?

    • @Vadim_Abbakumov
      @Vadim_Abbakumov Год назад

      В том-то и дело, что нет...

  • @MinisterDorado
    @MinisterDorado Год назад

    19:40 Те люди, кто парсят сайты делают много ошибок, они этим в основном и занимаются. LOL

  • @АленаВзорова
    @АленаВзорова 2 года назад +3

    Некоторые обьяснения очень путаные. Квантиль обьяснял так, что только запутал. Нет чтобы нарисовать распределение и показать. Слушатели знают основы статистики? Если квантили не знают, то, видимо, не сильно знают. Если нет, то обьяснения никуда не годятся. Диаграмму зачем строят? Не прозвучало даже слово "нормальное распределение"... Вообще, глаголит путано, скачет с одного понятия на другое...ерунда, а не лекция.

    • @Arian_9615
      @Arian_9615 Год назад +1

      Полностью согласен, я сам знаю что такое квантиль, но мне было сложно понять по его объяснению, из всех возможных объяснений, лектор выбрал самое сложное непонятное.

  • @_meta_data_9992
    @_meta_data_9992 4 года назад

    Анализ данных с нуля, data science, python: ruclips.net/video/qWBNK0ydGUM/видео.html

  • @ostrov11
    @ostrov11 5 лет назад

    препод давно был в Айове ??? и был ли вообще ???

    • @TTYY-ml7rb
      @TTYY-ml7rb 5 лет назад

      И к чему это?

    • @ostrov11
      @ostrov11 5 лет назад

      @@TTYY-ml7rb к тому же, к чему и Айова

    • @dariaarkhipova5419
      @dariaarkhipova5419 4 года назад +1

      Зря вы так, лектор шикарен