Если кто-то пришел сюда из машинного обучения, напишу для вас свое понимание. Идея метода в том, чтобы для нашего вектора признаков модель выдавала его вероятность встретить в датасете. Например, у нас в датасете был один вектор х=(1 1 1) класса А, тогда мы хотим чтобы наша модель, когда ей на вход подают х=(1 1 1) выдавала класс А с 100% вероятностью. Другой пример, если у нас в датасете 3 одинаковых вектора x = (2 2 2), у двух класс А, у одного класс Б. Тогда мы хотим, что когда модели на вход дают (2 2 2), она выдавала класс А с вероятностью 2/3, а класс Б с вероятностью 1/3. То есть по сути мы хотим, чтобы наша модель максимально повторяла распределение данных в датасете, и исходя из этой идеи обучаем модель и находим такие параметры. Отдельно добавлю, что результат сильно зависит от выбора модели, например, модель может быть такой, что у нее не существует таких параметров (весов, ветвей, коэффициентов и т.п.), которые бы хорошо повторяли распределение. А если мы все же найдем такие параметры и модель будет выдавать полное соответствие с обучающей выборкой, то это можно смело называть переобучением.
Что такое "параметр тетта" и почему распределения независимых случайных величин x(i) зависят от него, несмотря на то, что эти случайные величины являются "независимыми"?
* тета - некоторый параметр генеральной совокупности, который мы хотим оценить; параметр распределения * независимые, т.к. берутся независимо друг от друга * зависят от параметра, т.к. берутся из генеральной совокупности с конкретным распределением с конкретным(и) параметром(ами) Я надеюсь, что всё правильно понимаю
Это совсем базовые термины: результат броска монетки, игральных костей, сектор рулетки являются независимыми. Возьмем колесо рулетки. В каждом отдельном случае, то, в каком секторе остановится шарик не зависит от предыдущих бросков. В этом смысле случайная величина является независимой. Но при этом вероятности в рулетке зависят например от того насколько ровно выставлен стол.
а как это будет работать, если я строю гистограмму по выборке, а распределение похоже на гамма-распределение и на логнормальное (оба несимметричные)? как мне тип распределения выбрать-то? Или я сначала нахожу первые моменты, потом считаю параметры распределения, затем по критерию (Пирсона, Колмогорова и т.д) определяю наиулучшее, а у него у же методом макс. правдоподобия уточняю параметр? p.s кстати, а если параметров распределения несколько, тогда как быть?
то есть сначала для задачи максимизации мы логарифмируем ф-цию правдоподобия, а потом дифференцируем ее и находим нули? или либо логарифм либо производная и находим оценку?
Оч понятно объяснили, спасибо!
Если кто-то пришел сюда из машинного обучения, напишу для вас свое понимание.
Идея метода в том, чтобы для нашего вектора признаков модель выдавала его вероятность встретить в датасете. Например, у нас в датасете был один вектор х=(1 1 1) класса А, тогда мы хотим чтобы наша модель, когда ей на вход подают х=(1 1 1) выдавала класс А с 100% вероятностью. Другой пример, если у нас в датасете 3 одинаковых вектора x = (2 2 2), у двух класс А, у одного класс Б. Тогда мы хотим, что когда модели на вход дают (2 2 2), она выдавала класс А с вероятностью 2/3, а класс Б с вероятностью 1/3. То есть по сути мы хотим, чтобы наша модель максимально повторяла распределение данных в датасете, и исходя из этой идеи обучаем модель и находим такие параметры.
Отдельно добавлю, что результат сильно зависит от выбора модели, например, модель может быть такой, что у нее не существует таких параметров (весов, ветвей, коэффициентов и т.п.), которые бы хорошо повторяли распределение. А если мы все же найдем такие параметры и модель будет выдавать полное соответствие с обучающей выборкой, то это можно смело называть переобучением.
Что такое "параметр тетта" и почему распределения независимых случайных величин x(i) зависят от него, несмотря на то, что эти случайные величины являются "независимыми"?
* тета - некоторый параметр генеральной совокупности, который мы хотим оценить; параметр распределения
* независимые, т.к. берутся независимо друг от друга
* зависят от параметра, т.к. берутся из генеральной совокупности с конкретным распределением с конкретным(и) параметром(ами)
Я надеюсь, что всё правильно понимаю
Это совсем базовые термины: результат броска монетки, игральных костей, сектор рулетки являются независимыми. Возьмем колесо рулетки. В каждом отдельном случае, то, в каком секторе остановится шарик не зависит от предыдущих бросков. В этом смысле случайная величина является независимой. Но при этом вероятности в рулетке зависят например от того насколько ровно выставлен стол.
а как это будет работать, если я строю гистограмму по выборке, а распределение похоже на гамма-распределение и на логнормальное (оба несимметричные)? как мне тип распределения выбрать-то?
Или я сначала нахожу первые моменты, потом считаю параметры распределения, затем по критерию (Пирсона, Колмогорова и т.д) определяю наиулучшее, а у него у же методом макс. правдоподобия уточняю параметр?
p.s кстати, а если параметров распределения несколько, тогда как быть?
то есть сначала для задачи максимизации мы логарифмируем ф-цию правдоподобия, а потом дифференцируем ее и находим нули?
или либо логарифм либо производная и находим оценку?