А/B тестирование и анализ данных в Python // Урок 6 от Skypro

Поделиться
HTML-код
  • Опубликовано: 12 сен 2024

Комментарии • 49

  • @skypro.university
    @skypro.university  3 года назад +1

    💪 Записывайтесь на программу «Аналитик данных» по ссылке go.sky.pro/da_youtube
    Подписывайтесь на канал, чтобы не пропустить следующие уроки!

  • @art_alf-b9b
    @art_alf-b9b Месяц назад +1

    Намного понятнее, чем на Яндексе практикум, спасибо!!!

  • @3dport
    @3dport 2 года назад +12

    Очень классно преподнесено. Всё по полочкам и в правильной последовательности. Спасибо большое за видео!

  • @lemonadejoe9036
    @lemonadejoe9036 5 месяцев назад

    Прекрасное видео!
    Ведущая чудо! Слушать приятно и понятно)

  • @Aleksandrsvideo
    @Aleksandrsvideo 9 месяцев назад

    Спасибо большое за видео! 👍
    Всё очень интересно и довольно понятно рассказано.

  • @ФилиппКучерявых
    @ФилиппКучерявых 7 месяцев назад

    Отличное видео, важные моменты обозначены

  • @newwonen
    @newwonen 2 месяца назад

    Мне очень понравилась и подача материала, и как снят ролик, ничего не раздражает., все доступно объяснено, молодцы!!! единственное - не понятно где взять датасет для тренировки.

  • @ДмитрийЖданов-ш6я
    @ДмитрийЖданов-ш6я Год назад +1

    После понимания p-value я понял A/B тестирование!

    • @smm6280
      @smm6280 Год назад +1

      спустя время я вроде понял полностью A/B тестирование

  • @user-rr9lu3sv1l
    @user-rr9lu3sv1l Год назад +1

    Добрый день, а где найти файлы к дз? По ссылке доступа их нет, убрали…?

  • @user-jg3qe4tp1p
    @user-jg3qe4tp1p 2 года назад +1

    Добрый день, в домашнем задании к этому уроку в расчете мощности =52%, остальные две больше 80, как это правильно трактовать ? общая мощность без разбивки на устройства около 95% а составляющая mobile_power меньше 80, считать ли данный тест корректным ?

  • @BariLav
    @BariLav Год назад +1

    а где скачать материал чтобы сделать дз?
    В ссылке что пришла нет дз материала

  • @alex_iceberg
    @alex_iceberg 2 года назад +7

    если бы в университетах рассказывали так, как девушка на видео, не было бы потерянных людей после окончания данных заведений...

  • @atlant1707
    @atlant1707 8 месяцев назад

    Не совсем понятно, зачем вводится понятие "окно конверсии", если в итоге для определения времени эксперимента считается минимальный детектируемый эффект? Если нам интересна конкретная атрибуции, то это можно допустить, но и то с большой натяжкой, так как не понятно какая может быть причина так усложнять тест.

  • @ЕлизаветаИстратова-р9ч
    @ЕлизаветаИстратова-р9ч 7 месяцев назад

    Добрый день, а где можно найти датасет. на котором вы работали?

  • @user-jg3qe4tp1p
    @user-jg3qe4tp1p 2 года назад +2

    добрый день, а в данном случае выборки у нас при сравнение ср чека несвязанные ? я попробовал применить тест мана уитни , и результаты противоречащие бутсрепу, не могли бы объяснить почему

    • @skypro.university
      @skypro.university  2 года назад +1

      Добрый день! Выборки предполагаются несвязанными. Критерий Манна-Уитни имеет другую нулевую гипотезу: вместо того, чтобы проверять, что средние равны, он проверяет, что распределения двух выборок равны. Результаты t-test (как и бутстрапа) не обязаны давать такой же результат, как критерий Манна-Уитни, так как можно встретить ситуацию, когда у двух выборок или равны средние, но не равны распределения, или, наоборот, равны распределения, но не равны средние.

  • @user-yn6ee5wy1p
    @user-yn6ee5wy1p 3 года назад +3

    Добрый день. Не в укор говорю, а ради интереса. Где можно найти подверждение тому, что т-тест не применим к биномиальному распределению?

    • @skypro.university
      @skypro.university  3 года назад +1

      Здравствуйте, Максим.
      T-тест нацелен на сравнение средних для выборок с нормальным распределением.
      А случайная величина, подчиняющаяся биноминальному распределению - это, по сути, количество успехов в серии из какого-то числа одинаковых независимых испытаний Бернулли. То есть для неё вообще некорректно считать среднее значение по выборке.
      Подробнее можно почитать тут:
      samoedd.com/soft/r-t-test
      ru.wikipedia.org/wiki/%D0%91%D0%B8%D0%BD%D0%BE%D0%BC%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D0%B5_%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5

    • @maximgrigoriev1174
      @maximgrigoriev1174 3 года назад

      @@skypro.university здравствуйте. Но разве питоновский т-тест под капотом не нормализует биномиальное распределение, после чего сравнивает средние?
      У меня скромный опыт, но по моим наблюдениям т-тест зачастую показывает те же результаты, что хи2

    • @skypro.university
      @skypro.university  2 года назад

      @@maximgrigoriev1174 Что вы имеете ввиду под "питоновским т-тестом"?
      Т-тест из какой библиотеки имеется ввиду?
      Что вы понимаете с математической точки зрения под "нормализацией биномиального распределения"?

    • @m-a-khozin
      @m-a-khozin 2 года назад +2

      @@maximgrigoriev1174 есть такая штука, как центральная предельная теорема.
      Если у вас очень большая выборка, то среднее значение (а именно его и анализирует ttest будет распределена нормально). То есть если вы работаете в условиях асимптотического распределения, то у вас всё прекрасно взлетит. Кстати, в этом смысле так же не будет разницы между ttest и ztest (теста на основе нормального распределения).
      Но по своему дизайну тест Стьюдента (ttest) создавался для малых объемов выборок. И вот как раз тут всё сломается. Попробуйте погонять тесты с объемами данных от 10 до 50. И посмотрите на результаты.

    • @m-a-khozin
      @m-a-khozin 2 года назад +1

      Можно открыть оригинальную статью про распределение Стьюдента. Или любой учебник по статистике.
      Применять-то можно любой тест к любому набору данных. Но математически строгих результатов вы при этом не получите. То есть, например, посчитанное значение p-value не будет соответствовать вероятности ошибки. И в итоге вы ошибетесь в интерпретации результатов.

  • @user-jg3qe4tp1p
    @user-jg3qe4tp1p 2 года назад +1

    И еще 1 вопрос про доверительный интервал, значени 0, это конкретно для этой задачи ? или это вообще и применима для всех задач ?

    • @skypro.university
      @skypro.university  2 года назад +2

      Здравствуйте, Михаил! Для того чтобы подтвердить или опровергнуть гипотезу о наличии разницы между двумя выборками с точки зрения среднего, необходимо сформулировать нулевую гипотезу следующим образом: AVG1 = AVG2 (среднее в первой выборке = среднее во второй выборке). Можно переформулировать как: AVG1 - AVG2 = 0. Соответственно, получая в бутстрапе множество различных выборочных значений AVG1 - AVG2, мы проверяем, что 95% этих значений разницы включают в себя ноль, как гипотетическую разницу из нулевой гипотезы. То есть это применимо ко всем задачам, где нулевая гипотеза имеет такой вид.

  • @denisdolzhenkov4992
    @denisdolzhenkov4992 2 года назад

    Было бы хорошо, поверить правильно ли решил домашнее задание, вычислил все построил, а так ли? в 5 задании 0 ни в одной группе не попал в доверительный интервал...

  • @maximum3463
    @maximum3463 Месяц назад

    Ничего не понял

  • @giokut
    @giokut 3 года назад +1

    А домашнее задание только при покупке курса можно пройти?

    • @skypro.university
      @skypro.university  3 года назад

      Выложили в открытый доступ, спасибо что обратили внимание: sky.pro/python_yt_assets

    • @ioeeen
      @ioeeen 2 года назад

      У Вас не осталось материалов по курсу? сейчас уже недоступны

  • @salivona
    @salivona 2 года назад +1

    Спасибо за видео, ввел почту на сайте, ничего не пришло втч не в спам.

    • @skypro.university
      @skypro.university  2 года назад

      Александр, здравствуйте. Видим две ваших заявки на почту в gmail. Уточните, пожалуйста: письмо так и не пришло?
      Проверяли спам?
      Обратите внимание, что в Gmail во "входящих" есть также выбор разделов "соц.сети", "промо-акции" - проверяли их?

    • @skypro.university
      @skypro.university  2 года назад

      Александр, на всякий случай продублировали вам письмо. У нас происходит смена платформ рассылок, возможны баги.
      В любом случае, спасибо что написали о проблеме!

    • @BlackOrangeSunshine
      @BlackOrangeSunshine 2 года назад

      @@skypro.university Здравствуйте! очень нравится эта серия уроков, крайне познавательно, НО, к сожалению, ни материалы, ни домашние задания по ссылке мне тоже не пришли (проверила все папки на почте, запрос делала дважды) :(

  • @user-td9jh2cm7x
    @user-td9jh2cm7x 8 месяцев назад +1

    На кого рассчитано это видео? На тех, кто уже собаку съел в части статистики? У вас же курс для тех, кто только начинает знакомиться с этой профессией. А тут после 10-ой минуты рассказчик уходит в какие-то непонятные неискушенному зрителю дебри, причем рассказывает это с максимально возможной скоростью. Можно было бы еще усилить эффект, добавляя слово "очевидно" после каждого нового термина. Тогда бы слушатель окончательно понял, что он полное ничтожество в обсуждаемом вопросе и в аналитике в общем

  • @user-sw2uk8xu2i
    @user-sw2uk8xu2i 2 года назад

    Статистически неверно брать такие процентили при построении доверительного интервала в бустрепе. Нужно учитывать ваше стандартное отклонение по выборке(стандартую ошибку среднего) и брать 96 процентный интервал через mean (+-) 2 * std, в таком случае вы не потеряете нужные миллиметры и все будет сделано аргументировано. По такой логике я могу брать интервалы в 50 процентов и принимать все альтернативные гипотезы

  • @one_advice
    @one_advice 11 месяцев назад

    Может исключить ненужную воду и лишнюю эмоциональную болтовню?

  • @ivanshipilov4265
    @ivanshipilov4265 2 года назад

    Смотрю это и многие подобные видео и не могу понять. А нафиг нужен питон. На 100% уверен, что подобные вещи без проблем можно посчитать в какой либо прикладной программе да даже в том же эксель на много быстрее. А тут нужно писать код. Мало того, что помнить как все эти заклинания пишутся, так еще и придумать когда какое из них нужно. Зачем делать сложно то что можно сделать просто? Это как в уроке где человек экспортировал при помощи питона таблицу для анализа из вордовского файла. ... Чтобы написать код и заставить его работать на конкретном документе человек потратил минут 40. При этом многое осталось за кадром. В то время как если бы он просто даже не скопировал и вставил, а вручную перепечатал с клавиатуры он бы потратил не больше 4 минут.... Не понимаю. ЗАЧЕМ? Все равно что микроскопом гвозди заколачивать.

    • @skypro.university
      @skypro.university  2 года назад +5

      Изучение Excel тоже входит в обучающую программу на аналитика данных.
      Но если говорить именно о применимости Python, то стоит отметить, что Excel не является инструментом для анализа данных и имеет свои ограничения (до 1 048 576 строк и до 16 384 столбцов).
      Python же универсален и отлично подходит для работы с неограниченным объемом данных.
      Кроме того, он очень удобен для автоматизации процессов.
      Также используя этот инструмент можно одновременно работать с данными из нескольких источников, например CSV, Excel, JSON, SQL.
      Аналитики экономят много времени проводя расчеты, создавая отчеты или динамические дашборды, тогда как в Excel многие данные приходится вводить вручную.
      Python поддерживает множество продвинутых инструментов, которых нет в Excel, например Matplotlib, Streamlit, Numpy и т.д.
      Ну и наконец воспроизводимость. По этому параметру Excel тоже далеко позади.
      Все это, естественно, не означает, что Excel бесполезен. Для небольших объемов данных он отлично подходит. Но если аналитик данных претендует на работу с большими числами, на рост своих компетенций, на работу в крупных и международных компаниях, тогда без Python не обойтись. Сегодня это уже стандарт индустрии.

    • @osvab000
      @osvab000 2 года назад +2

      Таблица Эксель со связанными формулами - это страшно тяжелый, непроворотливый файл. Попробуй в него загрузить данных, ну тысяч на 500 строк! Поймешь тогда чем отличается Питоновская прога от Экселевской таблицы!

    • @ivanshipilov4265
      @ivanshipilov4265 2 года назад +1

      @@osvab000 Ну. Такие вопросы на раз два решает PQuery и PPivot встроенный в Excell. Работают быстро и результат виден сразу + - 10М строк обработать не вопрос. Другое дело когда нужно обработать что-то не локально, а напрямую на сайте или сервере, ну да тогда придется загеморроиться с Питоном или сделать что-то не стандартное. Большой плюс питона (он же минус) что он может работать с любой размерности числами (которые как правило не нужны), ну и сам формат хранения чисел. Например 1,2345 - 1 в питоне будет 0.2345000000000006. А в Эксель будет =0.2345
      Я не говорю что он не нужен. Но обрабатывать локальные файлы из экселя или ворда на + - 500 000 строк питоном.... это как из пушки по воробьям. Отдельного упоминания стоят алгоритмы сортировки данных. Если в SQL и PowerPivot (как никак БД) есть индексы. То питон прогоняет данные в сыром виде. Со всеми вытекающими. Разным кораблям разные торпеды.

    • @ivanshipilov4265
      @ivanshipilov4265 Год назад

      @@ivana_frank Есть такая вещь как целесообразность. Пока данные легко влезают в эксель и не требуют никаких дополнительных танцев с бубном, зато нужно посчитать здесь и сейчас - их проще и быстрее обработать в экселе. Если же его функционала не достаточно, то тогда уже что-то посерьезнее, тот же питон к примеру. Вот правда любят разработчики многое усложнять. Например месяц назад видел как 5 человек вместо того чтобы просто написать свои регистрационные данные в одинаковых документах убили 90 минут только для того чтобы придумать код, как им быстро внести свои данные в договоры. Вот только нахрена, если заполнить 5 одинаковых форм требуется 5х2=10 минут (максимум). Когда у человека слишком много мозгов, он начинает пытаться жарить яичницу на термоядерном ректоре (который перед этим проектирует и строит), вместо того чтобы использовать любую электроплиту, а оставшееся свободное время посвятить чему-нибудь более полезному.
      И еще нужно перед тем как заморачиваться выяснить, а кто собственно конечный потребитель. И в каком формате ему эти данные нужны.

    • @ivanshipilov4265
      @ivanshipilov4265 Год назад

      ​@@ivana_frank Есть бизнес большой и есть малый. Есть большие деньги и есть малые. Есть большие данные, есть очень большие, а есть несколько десятков тысяч или сотня тысяч записей в месяц, а то и год. Не все компании оперируют такими объемами. И не у всех бизнес в облаках. Атомная электростанция это хорошо и мега круто . Но только не в том случае когда она строится исключительно ради 10 лампочек в соседнем сарае. И потому я принципиально не понимаю ситуацию когда вокруг таблички в 100 - 1000 строк пляшут с бубном питон разрабтчики. Только ради того чтобы почесать свое ЧСВ.

  • @TheRoba33
    @TheRoba33 Год назад

    Что за жестикулирование руками странное? Вы прошли какой-то психологический тренинг?

    • @art_alf-b9b
      @art_alf-b9b Месяц назад

      что за неадкеватный комментарий?

  • @maximum3463
    @maximum3463 Месяц назад

    Ничего не понял

    • @art_alf-b9b
      @art_alf-b9b 5 часов назад

      потому что надо начинать с озов