Лекция 1. Описательные статистики. Квантили, квартили. Гистограммы
HTML-код
- Опубликовано: 4 фев 2025
- compscicenter.ru/
Описательные статистики. Квантили, квартили. Гистограммы. Ядерные оценки плотности.
Лекция №1 в курсе "Анализ данных на Python в примерах и задачах. Часть 1" (весна 2018).
Преподаватель курса: Вадим Леонардович Аббакумов
Авторизировался на RUclips только для того, чтобы поставить "лайк" лекциям! Спасибо большое Вадим Леонардович за ваши лекции, смотрел на одном дыхании, как сериал с Netflix)
Спасибо!
Большое спасибо за лекции! Уже думал, что придется статистику с помощью R изучать, а этот лектор уже курс и на Python создал! Очень хорошо, что есть возможность использовать современные быстро- развивающиеся технологии.
И умный, и добрый, и остроумный))) слушать лекцию - одно удовольствие)) спасибо
Очень приятный преподаватель, слушаю с невероятным интересом и советую всем друзьям, видео этого лектора.
Пожалуй, один из лучших лекторов, которых я слышал в жизни. Говорит просто о сложных вещах.
Обе части лекций просто великолепны. Да, код местами неоптимален, но не это главное. Главное - потрясающее об'яснение, чувство материала на кончиках пальцев и отдельное спасибо за интеллигентный, питерский юмор - разобран на цитаты ))
Спасибо
Первый раз в жизни я с реальным интересом слушаю лекции по статистике....
Лучшее, чем можно заняться в самоизоляции
Крутое видео!
Посмотри лучший канал с понятным объяснением сложных задач🤓❤️ ruclips.net/video/MlxMJRZs3zg/видео.html
Про ядерные оценки плотности на мой взгляд можно почетче. и Вообще наверное можно все тоже самое и побыстрее, однако, это ведь запись лекции. Лектору огромное спасибо, что выкладывает в общий доступ материалы.
Нравится преподаватель, не то что некоторые в универах))
Если пробуете на Pyton 3.8+ то строка "AH['SalePrice'].hist(bins=60, normed=1);" выдаст ошибку.
Для получения результата замените normed на density.
Спасибо
Нет слов, это просто клад.
Супер лектор, вообще класс) Смотрел с удовольствием
Потрясающий лектор, спасибо!)
лектор отличный!только ради его манеры изложения стоит смотреть!
Спасибо за лекцию! Все было понятно и хорошо объяснено, с примерами из жизни
Прекрасная лекция, спасибо! Снимайте еще!
Спасибо, Вадим! Прекрасно объясняете!
Благодарности за Ваш труд!!!
26:00 Пример с рулеткой шикарен. Согласен чуть более чем полностью.
Если вы точно знаете, что распределение 50/50 - не имеет значения, на что ставить.
Если у вас нет априорной информации о распределении, и всё, что у вас есть - это накопленная статистика, ставьте на красное.
-Но как объяснена ядерная оценка плотности, мне не понравилось.-
Не надо так загадочно... Что не понравилось с ядерными оценками? Логические ошибки, скрипт, цыканье зубом?...
@@Vadim_Abbakumov Если посмотреть внимательно и вдумчиво, то всё нормально. Просто очень непривычно :)
Большое спасибо за материал. Очень интересно.
"эти люди часто делают ошибки, они этим в основном и занимаются" хех :-D
Всем привет, а где можно взять файлы которые он использует в лекциях ?
Бомба! Большое спасибо за Лекции!
Вадим Леонардович, а можете поделиться ноутбуками из лекций или хотя бы датафреймами?
Очень интересно послушать. Спасибо!
вопрос первый, Где кнопка "Поставить лектору пивас?". второй вопросец: какие 2-3 основные книжки стоит читать как учебники/доп, литературу к такому курсу?
Hastie, Tibshirani, Friedman
The Elements of Statistical Learning: Data Mining, Inference, and Prediction
2 edition
Бесплатно, есть русский перевод (за деньги)
Goodfellow, Bengio, Courville
Deep Learning
Бесплатно, есть русский перевод (за деньги)
Geron
Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems
2 edition
Есть русский перевод (за деньги)
Спасибо за лекцию!
Подскажите, пожалуйста, а где взять все эти датасеты - продажа домов в Айове и тд?
пару секунд вспоминал что такое R`n`B, время летит конечно)))
Подскажите, пожалуйста, если один из предикторов имеет бимодальное распределение ,то стоит ли строить 2 разные модели ,разбив предиктор на 2 унимодальных интервала ?
В моем примере с фордом Мустанг обязательно. если пики гистограммы не интерпретируемы, то иногда нет...
9я минута. Кроме перечисленных шкал есть ещё абсолютная.
И шкала равных отношений
Подскажите,пожалуйста, зачем нам нужно стандартизировать данные при использовании линейных алгоритмов машинного обучения? Нужно ли стандартизировать данные при анализе одной гистограммы?
В линейной регрессии, наивном байесе и дискриминантном анализе не надо. В гистограммах не надо. После стандартизации наблюдения перестают быть независимыми, это плохо. Иногда (кластерный анализ, нейронные сети) стандартизация - неизбежное зло.
@@Vadim_Abbakumov простите, а где про это можно прочитать на русском, или дальше в лекциях будет о том, почему перестают быть независимыми? Просто интуитивно совсем непонятно, почему от простого изменения масштаба пропадает независимость [стандартизация это ведь просто перевести всё в один масштаб?]
ой, перепутал, видимо имеется в виду приведение выборки к такой, у которой выборочное среднее 0 и разброс 1, но все равно если честно непонятно, как такое преобразование может сделать независимые величины зависимыми?
@@Vadim_Abbakumov не подскажете? Так и не нашел нигде про это...
@@СергейМельников-л8ъ, всё просто. При стандартизации по методу z-score используются выборочные средние и стандартные отклонения. Они зависят от всех наблюдений. Следовательно, при вычислении z-меток для отдельных наблюдений используются данные о всей выборке, т.е. количественный признак отдельного наблюдения уже не "сам по себе", а функция от значений всех набюлюдений выборки.
Добрый день! Отличный курс. Правильно ли я понимаю что Автор видит Python как более перспективный язык для анализа данных по сравнению с R?
Нет.
IMHO на сегодняшний день выбор однозначен:
и R и Python одновременно.
Что-то лучше реализовано в R (например прогнозирование).
В Python намного лучше Deep Learning.
Если все же выбирать что-то одно, то R лучше.
Для знающих Python заметно больше вакансий.
@@Vadim_Abbakumov Но если вакансий больше для знающих Python, то почему нужно выбирать R?
Для задач продвинутой аналитики в питоне мало процедур, и они часто плохого качества.
В этих случаях лучше использовать R.
@@viacheslavspitsyn2995
@@Vadim_Abbakumov Как сказал один очень уважаемый человек, если вы статист и хотите немного программировать - выбирайте R. Если вы больше программист и немного статистик - выбирайте питон
Думаю, через несколько лет от R будет полный отказ. Синтаксис этого языка ужасен.
Но пока он нужен, потому что на нём действительно есть ВСЁ.
Приходится иногда самостоятельно разрабатывать кластеризацию, случайный лес и т. п,. и тут R служит тестовой базой, чтобы было на чём протестировать свои алгоритмы.
Здравствуйте,
А есть ответы по заданиям которые были в курсе? Для самопроверки. Заранее ОГРОМНОЕ СПАСИБО!
Нет. Многие задачи имеют несколько решений...
Добрый день! Спасибо за Ваши лекции! Скажите пожалуйста, а почему так разнится время лекций? Часть лекций больше одного часа (есть даже больше двух часов) а часть лекций около 20-30 минут....
Видеозаписи переклеены так, чтобы на лекцию приходилась одна тема от начала до конца. Мне показалось, что многим неудобно, когда интересующая их тема начинается в середине лекции.
Понял, спасибо!
спасибо!
Где взять самую первую базу данных? Как скачать?
Как называется файл? ameshousing Ну так гуглите это слово...
Можно где- то "ноутбуки" с лекции найти?
Вот здесь
compscicenter.ru/courses/data-mining-python/2018-spring/classes/
Не ко всем заданиям ноутбуки прикрепили, но есть слайды и датасеты
Спасибо!
Здравствуйте Вадим Леонардович! Вы говорили что делали коммерческие работы по кластеризации для разных организаций. Был ли экономический эффект от вашей работы и если да, то можно ли его выразить в цифрах?
Нельзя выразить в цифрах. У меня кластеризация - промежуточный (хотя и важный) этап решения большой задачи, обычно маркетинговой. Эффект легко оценить для всей задачи, а не ее этапа. Когда модель построена, теоретически можно провести эксперимент, и посмотреть, что будет, если исключить этап с кластеризации. Но на практике кто будет этим заниматься.
Как, например, Вы будете оценивать экономический эффект от предварительной стандартизации переменных?
@@Vadim_Abbakumov спасибо огромное за ответ. Просто я уже давно занимаюсь автоматизация бизнеса и хочется выйти за рамки банальных задач. Поэтому изучаю в том числе по Вашим лекциям различные статистические методы и нейронные сети. Но сложно идёт, по несколько раз пересматриваю и переслушиваю лекции
@@Vadim_Abbakumov тогда короткий вопрос. Я по старой статистике определил кластеры клиентов. А далее у меня появляется новый клиент у которого не достаёт некоторых данных (средний чек, количество покупок). Я хочу спрогнозировать в какой кластер он попадет(я вычисляют расстояния) и в итоге он оказывается в 3-х кластерах. А далее я вывожу вероятность попадания в тот или иной кластер из 3-х, на основании количества покупателей(попавших туда при обучении) в каждом кластере. Такая модель имеет права на жизнь? Или есть какой то принципиальный изъян?
@@МихаилИванов-я4й9д Поздравляю. Вы независимо изобрели нечеткую кластеризацию (fuzzy clustering, C-means). Дальше гуглите сами, те, кто придумал метод до Вас продвинулись далеко.
@@Vadim_Abbakumov спасибо Вам за ответы.
это что за универ
лайк за взломанный Total Commander!
Зашел написать этот комментарий.
Я как понял,курс не для новичков?
Для новичков в анализе данных. С базовым владением питоном
@@Vadim_Abbakumov спасибо,а не подскажишь годный курс по питону?)
@@vladodl3445 не особенно в теме... курс Лебедева хороший, но он не для новичков
@@Vadim_Abbakumov Крутое видео!
Посмотри лучший канал с понятным объяснением сложных задач🤓❤️ ruclips.net/video/MlxMJRZs3zg/видео.html
у меня было +27 ставок подряд
Вот мне интересно с первых секнд лекций - какого хрена преподают на примере домов в айове, а не на данных наших рынков? Нет что ли на наших примерах задач?
В том-то и дело, что нет...
19:40 Те люди, кто парсят сайты делают много ошибок, они этим в основном и занимаются. LOL
Некоторые обьяснения очень путаные. Квантиль обьяснял так, что только запутал. Нет чтобы нарисовать распределение и показать. Слушатели знают основы статистики? Если квантили не знают, то, видимо, не сильно знают. Если нет, то обьяснения никуда не годятся. Диаграмму зачем строят? Не прозвучало даже слово "нормальное распределение"... Вообще, глаголит путано, скачет с одного понятия на другое...ерунда, а не лекция.
Полностью согласен, я сам знаю что такое квантиль, но мне было сложно понять по его объяснению, из всех возможных объяснений, лектор выбрал самое сложное непонятное.
Анализ данных с нуля, data science, python: ruclips.net/video/qWBNK0ydGUM/видео.html
препод давно был в Айове ??? и был ли вообще ???
И к чему это?
@@TTYY-ml7rb к тому же, к чему и Айова
Зря вы так, лектор шикарен