Как и зачем оценивать размер выборки для A/B теста?

Поделиться
HTML-код
  • Опубликовано: 25 ноя 2024

Комментарии • 60

  • @ИванГорбык
    @ИванГорбык 3 года назад +111

    Наверное, лучший лектор по аналитике

  • @Astronomka
    @Astronomka 3 года назад +12

    Спасибо огромнейшее за это видео!!! Я наконец-то поняла про mde! Анатолий - лучший

  • @vo_sk
    @vo_sk 3 года назад +10

    Большое спасибо за такой хороший и понятный разбор темы, вроде бы слышал это много раз, но у Вас получилось объяснить это легко и наглядно. Очень ждём продолжения на тему более сложных кейсов.

  • @beorb2b
    @beorb2b 2 года назад +4

    Хотел посмотреть вечером сериал, но забыл про него. Невероятно, но факт: от этой лекции по статистике невозможно оторваться! Спасибо!

  • @kattynia5956
    @kattynia5956 3 года назад +6

    пришлось переслушивать несколько раз, но наконец поняла, что такое мощность и двухсторонняя гипотеза! спасибо Анатолию :)

  • @ИлонаИнч
    @ИлонаИнч 2 года назад +2

    Анатолий, вы🔥☺ сейчас прохожу курс и параллельно смотрю ваши другие видосы

  • @gikis1
    @gikis1 2 года назад +2

    Прям кайфанул, детально разбирая код на питоне и оценил всю мощь ЦПТ симулируя подвыборки и глядя на увеличение чувствительности критерия) спасибо!

  • @2443121z
    @2443121z 3 года назад +6

    Как и ожидалось, отличное видео!

  • @MaraLearns
    @MaraLearns Год назад +9

    Спасибо большое за контент❤ (я фанатка)
    но где обещанное продолжение с темой "как тестировать, если какие-то очень хитрые метрики с непонятными распределениями"🙃

  • @alexpanimash8155
    @alexpanimash8155 3 года назад +4

    Круто! жду следующие серии!

  • @artborovik
    @artborovik Год назад +3

    Ничего не понял, но оч интересно

  • @LVGavr
    @LVGavr 7 месяцев назад

    Посмотрел, супер, интересно и полезно

  • @alexostudin4940
    @alexostudin4940 3 года назад +2

    Чуть лайк не забыл поставить. Что недопустимо!)))

  • @Amidamarruu
    @Amidamarruu 6 месяцев назад

    и правда все супер понятно!

  • @КириллЧе-я5ы
    @КириллЧе-я5ы 2 года назад

    Все правильно по интерпретации незначимости результата - ав тест условие необходимое, но если он не прокрашен, надо дальше работать, а не принимать сходу одну из гипотез… имхо

  • @evgenialakeeva2189
    @evgenialakeeva2189 3 месяца назад

    Спасибо за трансляцию, очень интересно!
    Подскажите, пожалуйста, правильно понимаю, что в данном случае мы используем одновыборочный критерий? Соответственно для NormalIndPower/TTestIndPower необходимо использовать ratio=0, тогда и результат ручных расчетов через систему уравнений приблизительно равен результату NormalIndPower(ratio=0, ...)?

  • @ИгорьПашков-п8к
    @ИгорьПашков-п8к 2 года назад +4

    Отличное видео! Я прямо в своём познании преисполнился. Подскажите, пожалуйста, где найти продолжение этого вебинара, которое вы анонсировали? Буду очень признателен, а то на ютубе никак не могу найти

  • @Booogieman
    @Booogieman Год назад

    увлекательно!

  • @КириллЧе-я5ы
    @КириллЧе-я5ы 2 года назад

    Кстати два одинаковых распределения могут дать FP. Такой интересный эффект…

  • @yurablablabla3395
    @yurablablabla3395 3 года назад

    Спасибо!

  • @АндрейТимонин-ч6к

    Здравствуйте! Пожалуйста, подскажите, кто знает из гостей канала или ее автор - почему мы сигму делим на корень из 16, находя стандартную ошибку. Ведь, если я правильно понимаю, сигма - это стандартное отклонение генеральной совокупности, как и 100 в данном примере - средняя арифметическая генсовокупности, что в рамках ЦПТ говорит о постоянстве этих величин. Ее не надо по идее делить на 4, находя стандартную ошибку, т.к. эта операция проводится для выборки с целью экстраполяции на генсовокупность, т.к. точечная оценка несмещенности для стандартного отклонения не выполняется и для приближенного вычисления следует как раз стандартное отклонение ВЫБОРКИ и делить на корень из ее размера. А в этом примере, насколько я понял, сигма - это уже параметр генсовокупности. Поэтому z-трансформация делается в лоб через параметры. Я правильно понимаю?

  • @sevlant
    @sevlant 2 года назад +2

    Анатолий говорит про следующий раз. Этот раз так и не наступил или он где-то всё-таки лежит?

    • @karpovcourses
      @karpovcourses  2 года назад +1

      пока ждем)

    • @rengai
      @rengai Год назад +2

      @@karpovcourses Все еще ждем, все никак не дождемся))

  • @hipotalamus
    @hipotalamus 3 года назад +2

    Благодарю за подробный разбор. Появился вопрос, вы рекомендовали калькулятор, учитывающий размер выборки, разницу, мощность. А если не учиитывается оценочная выборочная дисперсия разве можно доверяться калькулятору?

    • @karpovcourses
      @karpovcourses  3 года назад +1

      В размер эффекта неявно зашита выборочная дисперсия, посмотрите на формуле cohen d, например!

    • @hipotalamus
      @hipotalamus 3 года назад +1

      @@karpovcourses да увидел. Cohens d это апостериорный метаанализ. В подсчёте необходимого размера выборки перед АБ тестом тоже как то вшита дисперсия через размер эффекта?

  • @МихаилБеляков-э4н
    @МихаилБеляков-э4н 2 года назад

    Добрый день, а при расчёте в питоне размера выборки, что бы получить общий размер мы должны домножить на 2 ?
    и 2ой вопрос, формула для подсчета размера эффекта для разницы, справедлива при условии что выборки одного рзмера ?

  • @МихаилБеляков-э4н
    @МихаилБеляков-э4н 2 года назад

    Sp - объединенное стандартное отклонение по Коэну считается немного по другой формуле, какую формулу использовали вы ?
    s = sqrt(((n1 - 1) . s1^2 + (n2 - 1) . s2^2) / (n1 + n2 - 2))

  • @mukhtarbimurat5106
    @mukhtarbimurat5106 Год назад

    Круто, спасибо!
    А что если дизайнер скажет 110 когда у нас есть сигма, получается больше вероятность отменить нулевую гипотезу? Но тогда дизайнер может сказать еще больше 120 чтобы получить больше вероятности, что делать в таком случае?

  • @raisky5479
    @raisky5479 2 года назад

    Не получается найти видео со следующего занятия((

  • @dmitriish.350
    @dmitriish.350 2 года назад

    Если усреднить те предположения о величине выборки, которые давали в чате, то получится примерно правильный ответ. Вот вам и статистика. Хе-хе.

  • @alexei_noskov
    @alexei_noskov 2 года назад +2

    лектор пьян🤣🤣🤣 38:48

  • @mlpython1089
    @mlpython1089 2 года назад

    Спасибо за лекцию.
    59:49 -0.86 было же определено для среднего в 105 а не 101.

    • @mlpython1089
      @mlpython1089 2 года назад

      понял. вопрос снят.

  • @АлександрЕфимов-щ3и

    Анатолий, спасибо! Шикарный материал.
    Уточните, пожалуйста, как правильно трактовать результаты:
    - правильно я понял, что, если перед тестом мы не рассчитывали его продолжительность, и получили, например, не стат. значимый результат (pvalue > 0.05) и мощность 0.7, это означает, что мы не набрали нужное количество измерений?
    - а если получили pvalue < 0.05) и мощность 0.7, можем считать, что все хорошо и можем принять h1?
    Или, в любом случае, при мощности ниже нашего порога (консенсусного 0.8) будет не очень правильно принимать окончательное решение, а правильным будет тест, где мощность не ниже порога, т.е. перезапустить или продлить?

    • @karpovcourses
      @karpovcourses  3 года назад +3

      Да, в целом верно, если мы получили незначимый результат, тогда смотрим на мощность теста. Если мощность скажем 0.1, то понятное дело, скорее всего нам просто нужно было закладывать больший размер выборки.
      Со значимыми результатами все проще, если мы получили значимый результат, то отклоняем нулевую гипотезу. Но и тут анализ мощности может помочь, если у нас мощность опять же очень низкая, то высока вероятность, что при повторении эксперимента с таким же размером выборки мы не сможем реплицировать значимый результат.

    • @АлександрЕфимов-щ3и
      @АлександрЕфимов-щ3и 3 года назад

      @@karpovcourses Спасибо

  • @gikis1
    @gikis1 2 года назад +2

    Спасибо за вебинар!
    А разве Z-score для 95% confidence будет не 1.96?

    • @klimmy.
      @klimmy. 2 года назад +4

      Это для двустороннего (то есть по 2.5% с каждой стороны), а в видео был односторонний.

    • @gikis1
      @gikis1 2 года назад +1

      @@klimmy.круто, спасибо)

  • @АлексейТаганрогов
    @АлексейТаганрогов 2 года назад +1

    Очень интересно.
    Но я не понял, почему как альтернатива начальному значению 100 для анализа было выбрано значение 105, а не, например, 104 или 106. Тогда бы и вместо 80% получили другое значение вероятности.

    • @sirscare555
      @sirscare555 Год назад +1

      Смысл в том, что в зависимости от задачи, которая перед нами стоит, мы должны сами заранее понимать, ошибки какого рода мы боимся больше всего.
      Например, у нас есть гипотеза Н0: пациент не болен раком. Тут лучше лишний раз сказать, что рак есть и ошибиться (ошибка первого рода альфа), чем сказать, что с человеком все в порядке, и он после этого умрет (ошибка второго рода бета). В данном случае нам нужно минимизировать ошибку бета, так как на кону жизнь человека.
      С другой стороны, может быть ситуация, что, например, у компании проблемы с онлайн продажами и мы понимаем, что нужно что-то менять. У нас есть идея поменять наполнение на странице информации о товарах, чтобы выросла конверсия в покупку. То есть, у нас есть гипотеза Н0: если мы поменяем наполнение, то ничего не изменится. Тут нам важна вероятность ошибки при принятии решения отвергнуть H0, когда на самом деле она была верна (то есть вероятность, что мы решим менять наполнение, хотя этого делать было не надо и разницы нет). В данном случае нам достаточно важно не ошибиться при смене наполнения, ведь мы потеряем время, деньги и клиентов, если просто так разработаем новое наполнение и дизайн, а окажется, что конверсия упала или осталась такой же.
      К чему все это: альфа и бета невозможно уменьшить одновременно. Единственный случай, как это можно сделать, это увеличить размер выборки, что зачастую очень затратно по ресурсам. Поэтому, мы должны выбирать такую альфа, чтобы она нас устроила и потом искать минимальное бета. Понять, что альфа и бета зависимы очень просто. Допустим, что мы опустили альфа с 0,05 до нуля. Тогда мы будем принимать абсолютно все гипотезы Н0, неважно, верные они или нет. В таком случае вероятность ошибки принять неверную гипотезу Н0 очевидно возрастет.
      Поэтому, еще раз, главное - это понимать в конкретной ситуации, какая ошибка для нас более важна, и пытаться выбрать допустимый для нас уровень этой ошибки (например, альфа), попутно подбирая оптимальную (в данном случае минимальную) вероятность совершить другую ошибку (бета).
      P.S. Это все я писал по большей мере для себя, чтобы структурировать информацию в своей голове. Если что-то я написал неверно, то извиняйте, я не претендую на истину в последней инстанции, хотя, как мне кажется, написал я вещи, которые должны быть верными. Надеюсь, что это кому-то будет полезным :)

  • @viskas11
    @viskas11 2 года назад

    где же продолжение?

  • @МаксимГригорьев-ь6х

    Подскажите пожалуйста как решить уравнение с 1:01:00)

  • @vagon4uk
    @vagon4uk 8 месяцев назад

    Много слов про то какая получится выборка если размер взять не тот, а нас в универе учили и я не в Москве училась, но преподы были сильные. Так есть генеральная совокупность, есть выборка, есть репрезентативная выборка и формула по которой мы можем посчитать сколько обьектов с генсовокупности взять и чтобы она отражала ее. Все! Спасибо моим преподам 20 лет, а я все помню, только формулу численности выборки нет. У одного из преподов есть канал здесь и уже под несколько слтен тысчч подписчиков, лекции по электротехнике.

  • @КсенияСавенкова-э2ж

    Что-то сильно не сходится.
    Методом бумажки и ручки получили n=400.
    Теперь берем TTestIndPower.
    Считаем MDE = (101-100) / sqrt((64+64) / 2) = 0.125
    result = analysis.solve_power(effect = MDE, power=0.8, nobs1=None, ratio=1.0, alpha=0.5)
    И получаем n=1005.615 - это сильно отличается от 400. :(
    Что я делаю не так?

    • @КсенияСавенкова-э2ж
      @КсенияСавенкова-э2ж Год назад

      Точнее так... Почему не сходится - понятно. n=400 мы получили с помощью Z-преобразования.
      А TTestIndPower расчитывает с помощью t-теста.
      Непонятно почему различия настолько велики, и как сделать так, чтобы все сошлось

  • @andreykorotkiy3397
    @andreykorotkiy3397 3 года назад

    25:06 для т-распределения, которое мы применяем чаще всего так как не знаем сигму (отклонение генеральной совокупности), а знаем только отклонение выборки, будет точно такая же логика расчетов, верно?

    • @karpovcourses
      @karpovcourses  3 года назад +2

      Да, идея абсолютно такая же, просто будем использовать критические значения для t распределения.

  • @romandvoryankov2276
    @romandvoryankov2276 3 года назад

    Если график синий, то какого цвета Анатолий?)

  • @glebvasilyev2374
    @glebvasilyev2374 2 года назад

    -0.86 - это ведь для среднего 105, почему мы его берем для 101?

  • @КириллЧе-я5ы
    @КириллЧе-я5ы 2 года назад

    Когда я получаю FN, я задаюсь вопросом - а на хрена я работаю?..

  • @eugene9271
    @eugene9271 3 года назад

    А разве на синем графике распределения мы не должны брать только 90% диапазона вероятностей? Края по 5% же нас не устраивают, и следовательно ошибка второго рода будет нет 80%, а 75/90 = 83,3%

    • @karpovcourses
      @karpovcourses  3 года назад

      Край в 5 процентов выбран для простоты, в разбираемом примере мы проверяем одностороннюю гипотезу.

  • @КириллЧе-я5ы
    @КириллЧе-я5ы 2 года назад +3

    Единственный вариант, где в реальности можно увидеть нормальное распределение генеральной совокупности - ядерные реакции…

  • @temirlanzhunusbekov5177
    @temirlanzhunusbekov5177 6 месяцев назад

    Хоть кто-то нормально объяснил зачем нужна мощность, а не просто "бенчмарк 80%"

  • @virtu_ozz
    @virtu_ozz Год назад

    Спасибо!