Как мы уже сказали, логит-
и пробит-модели оцениваются с помощью метода максимального правдоподобия.
Итак, у нас есть наблюдения, например y_1 = 1, y_2 = 0, есть логит-модель.
Соответственно, у нас есть функция правдоподобия,
то есть вероятность получить нашу выборку.
Поскольку мы предполагаем, наблюдения независимы, то вероятность получения нашей
выборки равна произведению вероятностей: P(y_1 = 1) * P(y_2 = 0) * ...
К сожалению, в явном виде задача не решается, то есть несмотря на то,
что можно выписать функцию правдоподобия, можно взять её производные аналитически,
— решить получающееся уравнение аналитически не получается.
Поэтому мы будем использовать численные способы решения этой задачи в R.
Получаемые коэффициенты β₁ с крышкой, β₂ с крышкой,
к сожалению, плохо интерпретируемы, потому что они показывают,
насколько меняется скрытая переменная при изменении x на единичку.
А смысл этой скрытой переменной, к сожалению, очень редко бывает очевиден.
Поэтому вместо этого в логит- и пробит-моделях считают предельные эффекты,
то есть на сколько увеличится вероятность того, что y = 1, с ростом x на единицу.
Соответственно, поскольку вероятность того, что y = 1,
— это функция распределения, мы берём производную от функции распределения по x
и получаем β₂ умножить на функцию плотности в точке (β₁ + β₂x).
Как мы видим, этот предельные эффект в отличие от
МНК-моделей зависит от x, то есть вероятность того,
то есть реакция вероятности на изменение объясняющей переменной,
— она разная для разных наблюдений: для одного наблюдения она может быть больше,
для другого меньше, тем не менее знак одинаковый.
Поскольку функция плотности всегда положительна, то знак предельного эффекта
определяется знаком переменной β₂, коэффициента β₂.
Существует два популярных средних предельных эффекта,
которые рассчитывают в разных статистических пакетах.
Есть средний предельный эффект по наблюдениям, это означает,
что мы считаем предельный эффект для каждого наблюдения, смотрим,
на сколько увеличится вероятность для первого наблюдения быть равным единичке,
если мы увеличим x на единичку, смотрим,
насколько увеличится вероятность для второго наблюдения быть равным единичке,
если мы x увеличим на единичку, и потом мы усредняем по всем наблюдениям.
И второй подход: рассмотрим некое среднестатистическое наблюдение,
то есть рассмотрим x, равный x среднему, и посчитаем для него предельный эффект.
Эти предельные эффекты, как правило, чуть-чуть отличаются.
С помощью логит-моделей можно не только рассчитывать предельные эффекты, то есть
насколько увеличится вероятность того, что y = 1 при росте x, но и прогнозировать,
собственно, эту самую вероятность того, что y_i = 1.
Для этого сначала мы спрогнозируем скрытую переменную, получим y*f с крышкой.
Нижний индекс f обозначает, что это прогноз.
Получив точечный прогноз y*,
мы можем, используя логистическую функцию F от y*,
получить прогноз вероятности.
Ну а поскольку мы знаем, что y* с крышкой — это случайная величина,
потому что случайными величинами являются β₁ с крышкой и β₂ с крышкой,
— мы можем посчитать для неё доверительный интервал и, применив функцию F к границам
этого доверительного интервала, получить доверительный интервал для вероятности.
На практике разница между логит- и пробит-моделями оказывается
несущественной.
Несмотря на то, что коэффициенты отличаются примерно в 1.6 раза,
отличие в прогнозах и в предельных эффектах минимальное.
Разница в 1.6 раза вызвана тем,
что логит можно примерно представить себе как модель,
где скрытая переменная y*i = β₁ + β₂ x_i плюс нормальное распределение
с математическим ожиданием ноль и дисперсией, равной 1.6 в квадрате.
Поделив уравнение для ненаблюдаемой скрытой переменной на 1.6,
я получу уравнение:
y_i*/1.6 = β₁/1.6 + β₂/1.6 x_i плюс
нормальное стандартное распределение, — что соответствует пробит-модели.
И, действительно, мы видим,
что β₁ в пробит-модели соотносится с β₁/1.6 из логит-модели.
А поскольку для определения истинного значения y,
0 или 1, важно только сравнение скрытой переменной с нулём,
то условие, что y_i*/1.6 > 0
полностью совпадает с условием, что y_i* > 0.