Я немного запутался на 1:02:40. 100500 выборок объема 20 выглядит как матрица (m, n), где m - n_rows, n - n_cols, т. е. (100500, 20)? Тогда надо "size=(20, 100500)" заменить на "size=(100500, 20)". А потом схлопывать колонки ".mean(axis=1)". Или я неправильно понял?
20 строк - это объём одной произвольной выборки, 100500 столбцов - это количество сгенерированных выборок. Создаем 100500 выборок размером 20 из нормального распределения (матрица 20 на 100500), находим среднее для каждого набора, получаем 100500 средних (т.е. для каждого столбца из 20 строк своё среднее), далее находим дисперсию по данному массиву.
Классический пример - опрос, выполненный в 1936 году журналом "Литературный дайджест" (Literary Digest), который предсказал победу Альфреда Лэндона (Al Landon) над Франклином Рузвельтом (Franklin Roosevelt). Периодическое ежедневное издание "Литературный дайджест" опросило подписчиков из своей базы данных плюс людей из дополнительных списков (в общей сложности более 10 млн человек) и предсказало сокрушительную победу Лэндона. Джордж Гэллап (George Gallup), основатель института опроса общественного мнения, проводил опросы каждые две недели всего по 2 тыс. респондентов и точно предсказал победу Рузвельта. Разница заключалась в том, как выбирались респонденты. Журнал "Литературный дайджест" сделал ставку на количество, мало обращая внимания на метод отбора. В итоге оказалось, что сотрудники журнала опросили людей с относительно высоким социально-экономическим статусом (их собственные подписчики плюс те, кто входили в списки маркетологов на основании владения предметами роскоши, такими как телефоны и автомобили). Результатом стала смещенная выборка
Какой прекрасный лектор! Слушала бы его и слушала))
Выборка дана:1,1,2,2,4,4,4,5,5,5. Найти коэффициент вариации?
Я немного запутался на 1:02:40.
100500 выборок объема 20 выглядит как матрица (m, n), где m - n_rows, n - n_cols, т. е. (100500, 20)?
Тогда надо "size=(20, 100500)" заменить на "size=(100500, 20)". А потом схлопывать колонки ".mean(axis=1)".
Или я неправильно понял?
20 строк - это объём одной произвольной выборки, 100500 столбцов - это количество сгенерированных выборок. Создаем 100500 выборок размером 20 из нормального распределения (матрица 20 на 100500), находим среднее для каждого набора, получаем 100500 средних (т.е. для каждого столбца из 20 строк своё среднее), далее находим дисперсию по данному массиву.
С чего начать, чтобы хорошо понимать природу терминов вроде диспресии и интуитивно понимать формулу? Где дают такие знания?
Любая книжка по теории вероятностей и математической статистики.
Трумен и Дьюи это были.
Классический пример - опрос, выполненный в 1936 году журналом "Литературный дайджест" (Literary Digest), который предсказал победу Альфреда Лэндона (Al
Landon) над Франклином Рузвельтом (Franklin Roosevelt). Периодическое ежедневное издание "Литературный дайджест" опросило подписчиков из своей базы данных плюс людей из дополнительных списков (в общей сложности более 10 млн человек) и предсказало сокрушительную победу Лэндона. Джордж Гэллап (George
Gallup), основатель института опроса общественного мнения, проводил опросы каждые две недели всего по 2 тыс. респондентов и точно предсказал победу Рузвельта. Разница заключалась в том, как выбирались респонденты.
Журнал "Литературный дайджест" сделал ставку на количество, мало обращая внимания на метод отбора. В итоге оказалось, что сотрудники журнала опросили
людей с относительно высоким социально-экономическим статусом (их собственные подписчики плюс те, кто входили в списки маркетологов на основании владения предметами роскоши, такими как телефоны и автомобили). Результатом стала смещенная выборка