Всем привет, это "Associate Data Analyst из Krisp Иван", спасибо Анатолию за чудесное интервью! Несколько комментариев-уточнений/исправлений: 14:15 -- ошибся-заговорился: между 20 и 40 и 1000 и 2000 разница та же (корень из 2), просто для получения в первом случае пришлось добавить 20 измерений, а во втором -- 1000. Смысл в том, что при росте размера выборки нам приходится добавлять всё больше элементов для того же уменьшения дисперсии. 17:40 -- всё очень плохо, всё перепутал. Объяснение Анатолия гораздо лучше: В выборочной дисперсии (n-1) -- из-за переоценки выборочной дисперсии, потому что минимизирует числитель (сумму квадратов разностей) именно выборочное среднее, а истинное от него отклоняется -> числитель для истинной дисперсии (считаемой от истинного среднего) будет больше -> в формуле выборочной дисперсии нужно сделать поправку, которая увеличит её, отсюда и "небольшое уменьшение" знаменателя. 48:40 -- ошибки в размышлениях есть, но с выправлениями Анатолия мы вышли к правильному выводу: вместо "мы ничего не можем сказать", "мы можем сказать, что мы либо с вероятностью альфа не нашли существующее различие, либо различие меньше установленного порога". Ну и всем рекомендую посетить сайт krisp.ai (мне за это не платят, ну и ладно, хотя и жаль).
Материалы, по которым соискатели готовились к собеседованию: Обзор системы сплитования (на примере Авито): habr.com/p/454164/ Краткий обзор по статистическим тестам: vkteam.medium.com/practitioners-guide-to-statistical-tests-ed2d580ef04f Пуассоновский бутстрап: ruclips.net/video/Zki9VMzxcFU/видео.html Подсчёт MDE: medium.com/statistics-experiments/когда-останавливать-a-b-тест-часть-1-mde-7d39b668b488 (Часть 1) medium.com/statistics-experiments/когда-останавливать-a-b-тест-часть-2-monte-carlo-a342ba5b552c (Часть 2) Стратификация: habr.com/ru/company/X5Tech/blog/596279/ Методы сокращения дисперсии и зачем это нужно: ruclips.net/video/KvIJ8FCJzr4/видео.html Увеличение чувствительности в A/B с помощью Cuped: ruclips.net/video/pZpUM08mv-E/видео.html Про FPR, TPR, Statistical power и p-value: ruclips.net/video/XTcP4oo4JI4/видео.html ruclips.net/video/-zps6hm0nX8/видео.html ruclips.net/video/2nP_gcut7SU/видео.html Канал для подготовки к интервью в сфере Data Science: ruclips.net/user/DataInterviewPro Лекция Нерсеса Багияна про A/B-тесты: ruclips.net/video/cWmS-ws4z9I/видео.html Курс «Основы статистики»: stepik.org/course/76/syllabus Курс «Основы статистики. Часть 2»: stepik.org/course/524/syllabus Курс «Основы статистики. Часть 3»: stepik.org/course/2152/syllabus
Не перестаю удивляться какой классный Анатолий учитель. Уважаю когда человек старается объяснить основные принципы простой понятной логикой, показать какой главный смысл. И все это в простых примерах. Я сам не могу понять вещь пока не пойму всю логику. Не могу тупо что-то зазубрить. А когда понимаешь логику, то все становится понятно и легко запоминается. Короч, респект
Спасибо ведущему и собеседующего - очень много полезной информации. Отличный вариант, чтобы провериться себя. Отличная получилась беседа. Выпуск огонь! :)
сколько собеседовался статистику не спрашивали нигде, было что то похожее типа проанализировать датасет, но там просто построить графики и дать общие определения, без всяких этих научных терминов. здесь скорее на продакт аналитика собес, да то большинству компаний это не уперлость, понимание воронок и умение строить метрики тогда, но опять же это продакт. для дата аналитика сиквел, пайтон, табло и вот это вот все... в последнее время уже требуют ETL, Airflow, Spark, построение витрин как минимум для мидла.
Привет, Анатолий. Скажи пожалуйста, такой вопрос. Вот во втором интервью, вопрос был. Мол для ARPU какой тест финально выберешь ? И вы сошлись на бутстрапе и на пуасановском бутстрапе. Что нам мешает на достаточно больших выборках использовать z-test ? Статистика будет нормально распределена энивей - и бутстрап +- это же и покажет - давайте сразу использовать квантили нормального распределения?) Без бутстрапов.
Наверное, все таки речь идет про t-test (т.к. z-test предполагает известную дисперсию), ARPU достаточно скошенное распределение и для действия ЦПТ потребуется сильно больше наблюдений, чем для других возможных распределений, отсюда скорее всего следует что мощность у бутстрапа будет получше (в случае если t-test вообще будет корректно работать на таком объеме), но в любом случае можно сравнить t-test/bootstrap на ваших данных посимулировав A/A тесты и A/B тесты (те же A/A с эффектом в одной группе) и посмотреть, является ли t-test корректным, если да, то какая у него мощность относительно bootstrap'а.
z-test использует же цпт. И ему не нужно знать дисперсию. Цпт говорит что при достаточно большой выборке выборочное среднее будет иметь нормальное распределение с мат ожиданием распределения из которого ген совокупность и с дисперсией распределения ген совокупности, делённой на размер выборки. Дисперсию можно заменить на оценку - а именно на несмещенную выборочную дисперсию. А при больших n можно и просто на выборочную дисперсию. На практике большим n уже начинается с 1000 - 3000. Поэтому мне и интересно почему коллега из озона выбрал бутстрап.
стоит ли идти глубже в аналитику и ds если ну очень не нравится статистика? с первого раза ниче не понятно. а формулы клонят в сон или это у всех так? или наоборот есть какие то гении которые феноменально легко и быстро понимают и интерпретируют статистику?
есть конечно гении, но в целом это вопрос вашей текущей подготовки, вначале всегда сложно, а дальше, чем больше вы будете понимать от нового материала, тем интереснее вам будет. так во многих ведь. ну а в целом, если вас любые формулы повергают в скуку, то идти в данные я бы не рекомендовал
Про n - 1. Подскажите, пожалуйста, правильно ли я понял. Мы вычитаем один для увеличения дисперсии, так как принимаем во внимание, что дисперсия нашей выборки может быть меньше, чем в генеральной совокупности, но больше быть не может чисто с логической точки зрения, за рамки не выйдешь. Поэтому мы даем "небольшую фору" в дисперсии для выборки.
прежде всего спрашивают Excel, PowerQuery, PowerPivot, сводные, ВПР, SQL, PowerBI либо аналог, это основа на hh, и потом уже питон и аб тестирование и то не всегда, ничего такого на твоих курсов нет....
@@vlkharlamov Привет! А можешь, пожалуйста, отослать к материалу, где доказывается или ярко демонстрируется, почему t-test перестаёт корректно работать на ratio метриках. Я не очень пока понимаю, на каком этапе появляется зависимость наблюдений и какие конкретно изменения самой метрики (появление числителя и знаменателя) ведут к поломке t-test’а?
@@clockfixer5049 т тест требует астмптотическую нормальность которая достигается за счёт цпт, а цпт требует независимость наблюдений, но вот подневная (ratio) будет сильно зависеть друг от друга
@@karpovcourses С удовольствием бы попробовал себя в тервере, матстате, SQL, ну и задачки по pandas какие-нибудь(сейчас перечислил и понял, что в общем-то во всём стеке продуктового аналитика :) ) Так что по факту что угодно))
По моему опыту, я месяц собеседовался дата аналитиком в разные компании и крупные и маленькие и то что на видео ни имеет НИЧЕГО ОБЩЕГО с реальностью. Как оказалось статистика мало кого волнует. Больше инетресует понимаение продуктовых меткрик. Но самая мякотка в том что зарплаты у аналитиков сильно ниже любого зачуханного программиста.
@@bricotel знание питона, алгоритмы и структуры данных (хз зачем), SQL. Это на первом этапе. Только в двух местах был кодинг с pandas (джойны, группировки, выбросы, визуализация) и выбор стат критерия. А так везде на последнем этапе больше волнует знание воронки продуктовых метрик. Просят придумать метрики для новой фичи. Бред какой то
@@bricotel мне кажется если и видят, то все равно хотят больше уклона в продуктовую аналитику. Чисто за дата аналитику похоже не готовы платить, либо все эти задачи уже решены, и остаётся только развивать продукт.
Всем привет, это "Associate Data Analyst из Krisp Иван", спасибо Анатолию за чудесное интервью!
Несколько комментариев-уточнений/исправлений:
14:15 -- ошибся-заговорился: между 20 и 40 и 1000 и 2000 разница та же (корень из 2), просто для получения в первом случае пришлось добавить 20 измерений, а во втором -- 1000. Смысл в том, что при росте размера выборки нам приходится добавлять всё больше элементов для того же уменьшения дисперсии.
17:40 -- всё очень плохо, всё перепутал. Объяснение Анатолия гораздо лучше:
В выборочной дисперсии (n-1) -- из-за переоценки выборочной дисперсии, потому что минимизирует числитель (сумму квадратов разностей) именно выборочное среднее, а истинное от него отклоняется -> числитель для истинной дисперсии (считаемой от истинного среднего) будет больше -> в формуле выборочной дисперсии нужно сделать поправку, которая увеличит её, отсюда и "небольшое уменьшение" знаменателя.
48:40 -- ошибки в размышлениях есть, но с выправлениями Анатолия мы вышли к правильному выводу: вместо "мы ничего не можем сказать", "мы можем сказать, что мы либо с вероятностью альфа не нашли существующее различие, либо различие меньше установленного порога".
Ну и всем рекомендую посетить сайт krisp.ai (мне за это не платят, ну и ладно, хотя и жаль).
Слишком надменный ты. Неприятно слушать
ты кайфовый чел, на харизме
Толя находит время, чтобы делать контент даже при такой красоте сзади
Материалы, по которым соискатели готовились к собеседованию:
Обзор системы сплитования (на примере Авито): habr.com/p/454164/
Краткий обзор по статистическим тестам:
vkteam.medium.com/practitioners-guide-to-statistical-tests-ed2d580ef04f
Пуассоновский бутстрап:
ruclips.net/video/Zki9VMzxcFU/видео.html
Подсчёт MDE:
medium.com/statistics-experiments/когда-останавливать-a-b-тест-часть-1-mde-7d39b668b488 (Часть 1)
medium.com/statistics-experiments/когда-останавливать-a-b-тест-часть-2-monte-carlo-a342ba5b552c (Часть 2)
Стратификация:
habr.com/ru/company/X5Tech/blog/596279/
Методы сокращения дисперсии и зачем это нужно: ruclips.net/video/KvIJ8FCJzr4/видео.html
Увеличение чувствительности в A/B с помощью Cuped: ruclips.net/video/pZpUM08mv-E/видео.html
Про FPR, TPR, Statistical power и p-value:
ruclips.net/video/XTcP4oo4JI4/видео.html
ruclips.net/video/-zps6hm0nX8/видео.html
ruclips.net/video/2nP_gcut7SU/видео.html
Канал для подготовки к интервью в сфере Data Science: ruclips.net/user/DataInterviewPro
Лекция Нерсеса Багияна про A/B-тесты: ruclips.net/video/cWmS-ws4z9I/видео.html
Курс «Основы статистики»: stepik.org/course/76/syllabus
Курс «Основы статистики. Часть 2»: stepik.org/course/524/syllabus
Курс «Основы статистики. Часть 3»: stepik.org/course/2152/syllabus
Анатолий (и коллеги), можете поделиться статьями о "проблемах" p-value, почему нельзя сломя голову бежать и ему верить?
Не перестаю удивляться какой классный Анатолий учитель.
Уважаю когда человек старается объяснить основные принципы простой понятной логикой, показать какой главный смысл. И все это в простых примерах.
Я сам не могу понять вещь пока не пойму всю логику. Не могу тупо что-то зазубрить. А когда понимаешь логику, то все становится понятно и легко запоминается.
Короч, респект
Получил интелектуальное удовольствие от ролика. Спасибо.
Шикарная шевелюра. Контент тоже нормальный👍
Интересные беседы, вторая часть с АБ тестами особо понравилась, узнала новое.
Спасибо ведущему и собеседующего - очень много полезной информации. Отличный вариант, чтобы провериться себя.
Отличная получилась беседа. Выпуск огонь! :)
Вставить комментарий для демонстрации благодарности Анатолию за контент
Спасибо парни за материал. Помог освежить знания и составить список пробелов.
классно, такие толковые ребята 👍
А какой подход обычно используют для множественного подглядывания в АБ? O’Brien-Fleming boundaries?
Почему когда говорите о se, говорите что наверху в формуле дисперсия? Там же стандартное отклонение.
Анатолий, а вы обратили внимание, что у вас на фоне бимодальное распределение)
сколько собеседовался статистику не спрашивали нигде, было что то похожее типа проанализировать датасет, но там просто построить графики и дать общие определения, без всяких этих научных терминов. здесь скорее на продакт аналитика собес, да то большинству компаний это не уперлость, понимание воронок и умение строить метрики тогда, но опять же это продакт. для дата аналитика сиквел, пайтон, табло и вот это вот все... в последнее время уже требуют ETL, Airflow, Spark, построение витрин как минимум для мидла.
Привет, Анатолий. Скажи пожалуйста, такой вопрос. Вот во втором интервью, вопрос был. Мол для ARPU какой тест финально выберешь ? И вы сошлись на бутстрапе и на пуасановском бутстрапе. Что нам мешает на достаточно больших выборках использовать z-test ? Статистика будет нормально распределена энивей - и бутстрап +- это же и покажет - давайте сразу использовать квантили нормального распределения?) Без бутстрапов.
Наверное, все таки речь идет про t-test (т.к. z-test предполагает известную дисперсию), ARPU достаточно скошенное распределение и для действия ЦПТ потребуется сильно больше наблюдений, чем для других возможных распределений, отсюда скорее всего следует что мощность у бутстрапа будет получше (в случае если t-test вообще будет корректно работать на таком объеме), но в любом случае можно сравнить t-test/bootstrap на ваших данных посимулировав A/A тесты и A/B тесты (те же A/A с эффектом в одной группе) и посмотреть, является ли t-test корректным, если да, то какая у него мощность относительно bootstrap'а.
z-test использует же цпт. И ему не нужно знать дисперсию. Цпт говорит что при достаточно большой выборке выборочное среднее будет иметь нормальное распределение с мат ожиданием распределения из которого ген совокупность и с дисперсией распределения ген совокупности, делённой на размер выборки. Дисперсию можно заменить на оценку - а именно на несмещенную выборочную дисперсию. А при больших n можно и просто на выборочную дисперсию. На практике большим n уже начинается с 1000 - 3000. Поэтому мне и интересно почему коллега из озона выбрал бутстрап.
стоит ли идти глубже в аналитику и ds если ну очень не нравится статистика? с первого раза ниче не понятно. а формулы клонят в сон
или это у всех так? или наоборот есть какие то гении которые феноменально легко и быстро понимают и интерпретируют статистику?
есть конечно гении, но в целом это вопрос вашей текущей подготовки, вначале всегда сложно, а дальше, чем больше вы будете понимать от нового материала, тем интереснее вам будет. так во многих ведь. ну а в целом, если вас любые формулы повергают в скуку, то идти в данные я бы не рекомендовал
Еще варик - примирение с математикой. Фаза принятия.
Где найти его курсы на степике?
Топ!
Про n - 1. Подскажите, пожалуйста, правильно ли я понял. Мы вычитаем один для увеличения дисперсии, так как принимаем во внимание, что дисперсия нашей выборки может быть меньше, чем в генеральной совокупности, но больше быть не может чисто с логической точки зрения, за рамки не выйдешь. Поэтому мы даем "небольшую фору" в дисперсии для выборки.
Все так!
Nice hair, awesome view
А это предполагается как собес по статистике на позицию какого уровня?
Джун+/Мидл?
Первая часть джун, вторая мидл и выше.
прежде всего спрашивают Excel, PowerQuery, PowerPivot, сводные, ВПР, SQL, PowerBI либо аналог, это основа на hh, и потом уже питон и аб тестирование и то не всегда, ничего такого на твоих курсов нет....
Анатолий, разберёте как-нибудь пуассоновский бутсреп на практике?
В приложенных материалах есть.
Пуассоновский бутстрап:
ruclips.net/video/Zki9VMzxcFU/видео.html
@@vlkharlamov Привет! А можешь, пожалуйста, отослать к материалу, где доказывается или ярко демонстрируется, почему t-test перестаёт корректно работать на ratio метриках. Я не очень пока понимаю, на каком этапе появляется зависимость наблюдений и какие конкретно изменения самой метрики (появление числителя и знаменателя) ведут к поломке t-test’а?
@@clockfixer5049 т тест требует астмптотическую нормальность которая достигается за счёт цпт, а цпт требует независимость наблюдений, но вот подневная (ratio) будет сильно зависеть друг от друга
Какой Иван хорошенький 😍
Здравствуйте! Скажите ,пожалуйста, будет подобное видео, но на тему data engineer?
Думаю, сделаем!
@@karpovcourses ждём! И сразу вопрос. В октябре не успеваю, а когда следующий набор обучения на инженеров?
@@ЯМоя-ш7х Стартуем каждый месяц :)
Сам курс платный?
Ой,блин,сколько ещё учить то надо,елки палки!/
Настроение упало после просмотра чуть)
не очень понимаю зачем мне наизусть знать формулы?)
Анатолий, а как можно к Вам на интервью попасть?))
А в каком предмете вы хотите себя попробовать?)
@@karpovcourses С удовольствием бы попробовал себя в тервере, матстате, SQL, ну и задачки по pandas какие-нибудь(сейчас перечислил и понял, что в общем-то во всём стеке продуктового аналитика :) )
Так что по факту что угодно))
👍🤗
Подскажите книжку почитать, если коммент мой увидите.
По моему опыту, я месяц собеседовался дата аналитиком в разные компании и крупные и маленькие и то что на видео ни имеет НИЧЕГО ОБЩЕГО с реальностью.
Как оказалось статистика мало кого волнует. Больше инетресует понимаение продуктовых меткрик. Но самая мякотка в том что зарплаты у аналитиков сильно ниже любого зачуханного программиста.
А что ещё спрашивают?
Хочу через полгода собеседоваться и мне очень интересно, в какую сторону крен делать.
@@bricotel знание питона, алгоритмы и структуры данных (хз зачем), SQL. Это на первом этапе. Только в двух местах был кодинг с pandas (джойны, группировки, выбросы, визуализация) и выбор стат критерия. А так везде на последнем этапе больше волнует знание воронки продуктовых метрик. Просят придумать метрики для новой фичи. Бред какой то
Тервер тоже только в одном месте был. Просили решить задачку
@@2korzhik спасибо за ответ! В целом люди видят разницу между аналитиком данных и тем же продуктовым аналитиком?
Много собесов уже прошел?
@@bricotel мне кажется если и видят, то все равно хотят больше уклона в продуктовую аналитику. Чисто за дата аналитику похоже не готовы платить, либо все эти задачи уже решены, и остаётся только развивать продукт.
Из-за прически такое ощущение, что Анатолий Карпов ненастоящий ))
Не узнал Толю
Я надеюсь, этот список вопросов не для джуна?😱
Сама в шоке сижу слушаю😀
😀
уже при усредненном n=4 распределение близко к нормальному, n=30 это уже явно перебор