Большое спасибо за такой хороший и понятный разбор темы, вроде бы слышал это много раз, но у Вас получилось объяснить это легко и наглядно. Очень ждём продолжения на тему более сложных кейсов.
Спасибо большое за контент❤ (я фанатка) но где обещанное продолжение с темой "как тестировать, если какие-то очень хитрые метрики с непонятными распределениями"🙃
Все правильно по интерпретации незначимости результата - ав тест условие необходимое, но если он не прокрашен, надо дальше работать, а не принимать сходу одну из гипотез… имхо
Спасибо за трансляцию, очень интересно! Подскажите, пожалуйста, правильно понимаю, что в данном случае мы используем одновыборочный критерий? Соответственно для NormalIndPower/TTestIndPower необходимо использовать ratio=0, тогда и результат ручных расчетов через систему уравнений приблизительно равен результату NormalIndPower(ratio=0, ...)?
Отличное видео! Я прямо в своём познании преисполнился. Подскажите, пожалуйста, где найти продолжение этого вебинара, которое вы анонсировали? Буду очень признателен, а то на ютубе никак не могу найти
Здравствуйте! Пожалуйста, подскажите, кто знает из гостей канала или ее автор - почему мы сигму делим на корень из 16, находя стандартную ошибку. Ведь, если я правильно понимаю, сигма - это стандартное отклонение генеральной совокупности, как и 100 в данном примере - средняя арифметическая генсовокупности, что в рамках ЦПТ говорит о постоянстве этих величин. Ее не надо по идее делить на 4, находя стандартную ошибку, т.к. эта операция проводится для выборки с целью экстраполяции на генсовокупность, т.к. точечная оценка несмещенности для стандартного отклонения не выполняется и для приближенного вычисления следует как раз стандартное отклонение ВЫБОРКИ и делить на корень из ее размера. А в этом примере, насколько я понял, сигма - это уже параметр генсовокупности. Поэтому z-трансформация делается в лоб через параметры. Я правильно понимаю?
Благодарю за подробный разбор. Появился вопрос, вы рекомендовали калькулятор, учитывающий размер выборки, разницу, мощность. А если не учиитывается оценочная выборочная дисперсия разве можно доверяться калькулятору?
@@karpovcourses да увидел. Cohens d это апостериорный метаанализ. В подсчёте необходимого размера выборки перед АБ тестом тоже как то вшита дисперсия через размер эффекта?
Добрый день, а при расчёте в питоне размера выборки, что бы получить общий размер мы должны домножить на 2 ? и 2ой вопрос, формула для подсчета размера эффекта для разницы, справедлива при условии что выборки одного рзмера ?
Sp - объединенное стандартное отклонение по Коэну считается немного по другой формуле, какую формулу использовали вы ? s = sqrt(((n1 - 1) . s1^2 + (n2 - 1) . s2^2) / (n1 + n2 - 2))
Круто, спасибо! А что если дизайнер скажет 110 когда у нас есть сигма, получается больше вероятность отменить нулевую гипотезу? Но тогда дизайнер может сказать еще больше 120 чтобы получить больше вероятности, что делать в таком случае?
Анатолий, спасибо! Шикарный материал. Уточните, пожалуйста, как правильно трактовать результаты: - правильно я понял, что, если перед тестом мы не рассчитывали его продолжительность, и получили, например, не стат. значимый результат (pvalue > 0.05) и мощность 0.7, это означает, что мы не набрали нужное количество измерений? - а если получили pvalue < 0.05) и мощность 0.7, можем считать, что все хорошо и можем принять h1? Или, в любом случае, при мощности ниже нашего порога (консенсусного 0.8) будет не очень правильно принимать окончательное решение, а правильным будет тест, где мощность не ниже порога, т.е. перезапустить или продлить?
Да, в целом верно, если мы получили незначимый результат, тогда смотрим на мощность теста. Если мощность скажем 0.1, то понятное дело, скорее всего нам просто нужно было закладывать больший размер выборки. Со значимыми результатами все проще, если мы получили значимый результат, то отклоняем нулевую гипотезу. Но и тут анализ мощности может помочь, если у нас мощность опять же очень низкая, то высока вероятность, что при повторении эксперимента с таким же размером выборки мы не сможем реплицировать значимый результат.
Очень интересно. Но я не понял, почему как альтернатива начальному значению 100 для анализа было выбрано значение 105, а не, например, 104 или 106. Тогда бы и вместо 80% получили другое значение вероятности.
Смысл в том, что в зависимости от задачи, которая перед нами стоит, мы должны сами заранее понимать, ошибки какого рода мы боимся больше всего. Например, у нас есть гипотеза Н0: пациент не болен раком. Тут лучше лишний раз сказать, что рак есть и ошибиться (ошибка первого рода альфа), чем сказать, что с человеком все в порядке, и он после этого умрет (ошибка второго рода бета). В данном случае нам нужно минимизировать ошибку бета, так как на кону жизнь человека. С другой стороны, может быть ситуация, что, например, у компании проблемы с онлайн продажами и мы понимаем, что нужно что-то менять. У нас есть идея поменять наполнение на странице информации о товарах, чтобы выросла конверсия в покупку. То есть, у нас есть гипотеза Н0: если мы поменяем наполнение, то ничего не изменится. Тут нам важна вероятность ошибки при принятии решения отвергнуть H0, когда на самом деле она была верна (то есть вероятность, что мы решим менять наполнение, хотя этого делать было не надо и разницы нет). В данном случае нам достаточно важно не ошибиться при смене наполнения, ведь мы потеряем время, деньги и клиентов, если просто так разработаем новое наполнение и дизайн, а окажется, что конверсия упала или осталась такой же. К чему все это: альфа и бета невозможно уменьшить одновременно. Единственный случай, как это можно сделать, это увеличить размер выборки, что зачастую очень затратно по ресурсам. Поэтому, мы должны выбирать такую альфа, чтобы она нас устроила и потом искать минимальное бета. Понять, что альфа и бета зависимы очень просто. Допустим, что мы опустили альфа с 0,05 до нуля. Тогда мы будем принимать абсолютно все гипотезы Н0, неважно, верные они или нет. В таком случае вероятность ошибки принять неверную гипотезу Н0 очевидно возрастет. Поэтому, еще раз, главное - это понимать в конкретной ситуации, какая ошибка для нас более важна, и пытаться выбрать допустимый для нас уровень этой ошибки (например, альфа), попутно подбирая оптимальную (в данном случае минимальную) вероятность совершить другую ошибку (бета). P.S. Это все я писал по большей мере для себя, чтобы структурировать информацию в своей голове. Если что-то я написал неверно, то извиняйте, я не претендую на истину в последней инстанции, хотя, как мне кажется, написал я вещи, которые должны быть верными. Надеюсь, что это кому-то будет полезным :)
Много слов про то какая получится выборка если размер взять не тот, а нас в универе учили и я не в Москве училась, но преподы были сильные. Так есть генеральная совокупность, есть выборка, есть репрезентативная выборка и формула по которой мы можем посчитать сколько обьектов с генсовокупности взять и чтобы она отражала ее. Все! Спасибо моим преподам 20 лет, а я все помню, только формулу численности выборки нет. У одного из преподов есть канал здесь и уже под несколько слтен тысчч подписчиков, лекции по электротехнике.
Что-то сильно не сходится. Методом бумажки и ручки получили n=400. Теперь берем TTestIndPower. Считаем MDE = (101-100) / sqrt((64+64) / 2) = 0.125 result = analysis.solve_power(effect = MDE, power=0.8, nobs1=None, ratio=1.0, alpha=0.5) И получаем n=1005.615 - это сильно отличается от 400. :( Что я делаю не так?
Точнее так... Почему не сходится - понятно. n=400 мы получили с помощью Z-преобразования. А TTestIndPower расчитывает с помощью t-теста. Непонятно почему различия настолько велики, и как сделать так, чтобы все сошлось
25:06 для т-распределения, которое мы применяем чаще всего так как не знаем сигму (отклонение генеральной совокупности), а знаем только отклонение выборки, будет точно такая же логика расчетов, верно?
А разве на синем графике распределения мы не должны брать только 90% диапазона вероятностей? Края по 5% же нас не устраивают, и следовательно ошибка второго рода будет нет 80%, а 75/90 = 83,3%
Наверное, лучший лектор по аналитике
поддерживаю
Наверное тут лишнее)
Спасибо огромнейшее за это видео!!! Я наконец-то поняла про mde! Анатолий - лучший
Большое спасибо за такой хороший и понятный разбор темы, вроде бы слышал это много раз, но у Вас получилось объяснить это легко и наглядно. Очень ждём продолжения на тему более сложных кейсов.
Хотел посмотреть вечером сериал, но забыл про него. Невероятно, но факт: от этой лекции по статистике невозможно оторваться! Спасибо!
пришлось переслушивать несколько раз, но наконец поняла, что такое мощность и двухсторонняя гипотеза! спасибо Анатолию :)
Анатолий, вы🔥☺ сейчас прохожу курс и параллельно смотрю ваши другие видосы
Прям кайфанул, детально разбирая код на питоне и оценил всю мощь ЦПТ симулируя подвыборки и глядя на увеличение чувствительности критерия) спасибо!
Как и ожидалось, отличное видео!
Спасибо большое за контент❤ (я фанатка)
но где обещанное продолжение с темой "как тестировать, если какие-то очень хитрые метрики с непонятными распределениями"🙃
Круто! жду следующие серии!
Ничего не понял, но оч интересно
Посмотрел, супер, интересно и полезно
Чуть лайк не забыл поставить. Что недопустимо!)))
и правда все супер понятно!
Все правильно по интерпретации незначимости результата - ав тест условие необходимое, но если он не прокрашен, надо дальше работать, а не принимать сходу одну из гипотез… имхо
Спасибо за трансляцию, очень интересно!
Подскажите, пожалуйста, правильно понимаю, что в данном случае мы используем одновыборочный критерий? Соответственно для NormalIndPower/TTestIndPower необходимо использовать ratio=0, тогда и результат ручных расчетов через систему уравнений приблизительно равен результату NormalIndPower(ratio=0, ...)?
Отличное видео! Я прямо в своём познании преисполнился. Подскажите, пожалуйста, где найти продолжение этого вебинара, которое вы анонсировали? Буду очень признателен, а то на ютубе никак не могу найти
увлекательно!
Кстати два одинаковых распределения могут дать FP. Такой интересный эффект…
Спасибо!
Здравствуйте! Пожалуйста, подскажите, кто знает из гостей канала или ее автор - почему мы сигму делим на корень из 16, находя стандартную ошибку. Ведь, если я правильно понимаю, сигма - это стандартное отклонение генеральной совокупности, как и 100 в данном примере - средняя арифметическая генсовокупности, что в рамках ЦПТ говорит о постоянстве этих величин. Ее не надо по идее делить на 4, находя стандартную ошибку, т.к. эта операция проводится для выборки с целью экстраполяции на генсовокупность, т.к. точечная оценка несмещенности для стандартного отклонения не выполняется и для приближенного вычисления следует как раз стандартное отклонение ВЫБОРКИ и делить на корень из ее размера. А в этом примере, насколько я понял, сигма - это уже параметр генсовокупности. Поэтому z-трансформация делается в лоб через параметры. Я правильно понимаю?
Анатолий говорит про следующий раз. Этот раз так и не наступил или он где-то всё-таки лежит?
пока ждем)
@@karpovcourses Все еще ждем, все никак не дождемся))
Благодарю за подробный разбор. Появился вопрос, вы рекомендовали калькулятор, учитывающий размер выборки, разницу, мощность. А если не учиитывается оценочная выборочная дисперсия разве можно доверяться калькулятору?
В размер эффекта неявно зашита выборочная дисперсия, посмотрите на формуле cohen d, например!
@@karpovcourses да увидел. Cohens d это апостериорный метаанализ. В подсчёте необходимого размера выборки перед АБ тестом тоже как то вшита дисперсия через размер эффекта?
Добрый день, а при расчёте в питоне размера выборки, что бы получить общий размер мы должны домножить на 2 ?
и 2ой вопрос, формула для подсчета размера эффекта для разницы, справедлива при условии что выборки одного рзмера ?
Sp - объединенное стандартное отклонение по Коэну считается немного по другой формуле, какую формулу использовали вы ?
s = sqrt(((n1 - 1) . s1^2 + (n2 - 1) . s2^2) / (n1 + n2 - 2))
Круто, спасибо!
А что если дизайнер скажет 110 когда у нас есть сигма, получается больше вероятность отменить нулевую гипотезу? Но тогда дизайнер может сказать еще больше 120 чтобы получить больше вероятности, что делать в таком случае?
Не получается найти видео со следующего занятия((
Если усреднить те предположения о величине выборки, которые давали в чате, то получится примерно правильный ответ. Вот вам и статистика. Хе-хе.
лектор пьян🤣🤣🤣 38:48
Спасибо за лекцию.
59:49 -0.86 было же определено для среднего в 105 а не 101.
понял. вопрос снят.
Анатолий, спасибо! Шикарный материал.
Уточните, пожалуйста, как правильно трактовать результаты:
- правильно я понял, что, если перед тестом мы не рассчитывали его продолжительность, и получили, например, не стат. значимый результат (pvalue > 0.05) и мощность 0.7, это означает, что мы не набрали нужное количество измерений?
- а если получили pvalue < 0.05) и мощность 0.7, можем считать, что все хорошо и можем принять h1?
Или, в любом случае, при мощности ниже нашего порога (консенсусного 0.8) будет не очень правильно принимать окончательное решение, а правильным будет тест, где мощность не ниже порога, т.е. перезапустить или продлить?
Да, в целом верно, если мы получили незначимый результат, тогда смотрим на мощность теста. Если мощность скажем 0.1, то понятное дело, скорее всего нам просто нужно было закладывать больший размер выборки.
Со значимыми результатами все проще, если мы получили значимый результат, то отклоняем нулевую гипотезу. Но и тут анализ мощности может помочь, если у нас мощность опять же очень низкая, то высока вероятность, что при повторении эксперимента с таким же размером выборки мы не сможем реплицировать значимый результат.
@@karpovcourses Спасибо
Спасибо за вебинар!
А разве Z-score для 95% confidence будет не 1.96?
Это для двустороннего (то есть по 2.5% с каждой стороны), а в видео был односторонний.
@@klimmy.круто, спасибо)
Очень интересно.
Но я не понял, почему как альтернатива начальному значению 100 для анализа было выбрано значение 105, а не, например, 104 или 106. Тогда бы и вместо 80% получили другое значение вероятности.
Смысл в том, что в зависимости от задачи, которая перед нами стоит, мы должны сами заранее понимать, ошибки какого рода мы боимся больше всего.
Например, у нас есть гипотеза Н0: пациент не болен раком. Тут лучше лишний раз сказать, что рак есть и ошибиться (ошибка первого рода альфа), чем сказать, что с человеком все в порядке, и он после этого умрет (ошибка второго рода бета). В данном случае нам нужно минимизировать ошибку бета, так как на кону жизнь человека.
С другой стороны, может быть ситуация, что, например, у компании проблемы с онлайн продажами и мы понимаем, что нужно что-то менять. У нас есть идея поменять наполнение на странице информации о товарах, чтобы выросла конверсия в покупку. То есть, у нас есть гипотеза Н0: если мы поменяем наполнение, то ничего не изменится. Тут нам важна вероятность ошибки при принятии решения отвергнуть H0, когда на самом деле она была верна (то есть вероятность, что мы решим менять наполнение, хотя этого делать было не надо и разницы нет). В данном случае нам достаточно важно не ошибиться при смене наполнения, ведь мы потеряем время, деньги и клиентов, если просто так разработаем новое наполнение и дизайн, а окажется, что конверсия упала или осталась такой же.
К чему все это: альфа и бета невозможно уменьшить одновременно. Единственный случай, как это можно сделать, это увеличить размер выборки, что зачастую очень затратно по ресурсам. Поэтому, мы должны выбирать такую альфа, чтобы она нас устроила и потом искать минимальное бета. Понять, что альфа и бета зависимы очень просто. Допустим, что мы опустили альфа с 0,05 до нуля. Тогда мы будем принимать абсолютно все гипотезы Н0, неважно, верные они или нет. В таком случае вероятность ошибки принять неверную гипотезу Н0 очевидно возрастет.
Поэтому, еще раз, главное - это понимать в конкретной ситуации, какая ошибка для нас более важна, и пытаться выбрать допустимый для нас уровень этой ошибки (например, альфа), попутно подбирая оптимальную (в данном случае минимальную) вероятность совершить другую ошибку (бета).
P.S. Это все я писал по большей мере для себя, чтобы структурировать информацию в своей голове. Если что-то я написал неверно, то извиняйте, я не претендую на истину в последней инстанции, хотя, как мне кажется, написал я вещи, которые должны быть верными. Надеюсь, что это кому-то будет полезным :)
где же продолжение?
Подскажите пожалуйста как решить уравнение с 1:01:00)
Много слов про то какая получится выборка если размер взять не тот, а нас в универе учили и я не в Москве училась, но преподы были сильные. Так есть генеральная совокупность, есть выборка, есть репрезентативная выборка и формула по которой мы можем посчитать сколько обьектов с генсовокупности взять и чтобы она отражала ее. Все! Спасибо моим преподам 20 лет, а я все помню, только формулу численности выборки нет. У одного из преподов есть канал здесь и уже под несколько слтен тысчч подписчиков, лекции по электротехнике.
Что-то сильно не сходится.
Методом бумажки и ручки получили n=400.
Теперь берем TTestIndPower.
Считаем MDE = (101-100) / sqrt((64+64) / 2) = 0.125
result = analysis.solve_power(effect = MDE, power=0.8, nobs1=None, ratio=1.0, alpha=0.5)
И получаем n=1005.615 - это сильно отличается от 400. :(
Что я делаю не так?
Точнее так... Почему не сходится - понятно. n=400 мы получили с помощью Z-преобразования.
А TTestIndPower расчитывает с помощью t-теста.
Непонятно почему различия настолько велики, и как сделать так, чтобы все сошлось
25:06 для т-распределения, которое мы применяем чаще всего так как не знаем сигму (отклонение генеральной совокупности), а знаем только отклонение выборки, будет точно такая же логика расчетов, верно?
Да, идея абсолютно такая же, просто будем использовать критические значения для t распределения.
Если график синий, то какого цвета Анатолий?)
-0.86 - это ведь для среднего 105, почему мы его берем для 101?
Когда я получаю FN, я задаюсь вопросом - а на хрена я работаю?..
А разве на синем графике распределения мы не должны брать только 90% диапазона вероятностей? Края по 5% же нас не устраивают, и следовательно ошибка второго рода будет нет 80%, а 75/90 = 83,3%
Край в 5 процентов выбран для простоты, в разбираемом примере мы проверяем одностороннюю гипотезу.
Единственный вариант, где в реальности можно увидеть нормальное распределение генеральной совокупности - ядерные реакции…
Хоть кто-то нормально объяснил зачем нужна мощность, а не просто "бенчмарк 80%"
Спасибо!