Мы установили, что с помощью данных переменных можно одним уравнением описать фактически две разных модели для каждой из подвыборок. Одно уравнение wage = β₁ + β₂ experience + β_3 education + β_4 на данную переменную male + β_5 на произведение male на education + ε, фактически означает две разных модели. Для мужчин модель имеет вид: зарплата wage = β₁ + β_4 + β₂ experience + β_3 + β_5 education + ε_i, а для женщин соответствующая модель превращается в wage = (β₁ + β₂) experience + β_3 education + случайно составляющая ε_i. Естественно, возникает вопрос. А вообще, нужны ли разные модели для двух подвыборок? То есть вопрос: подвыборки отличаются или для них можно использовать одну и ту же модель? То есть эта гипотеза о том, что β_4 = 0. Это разница в свободном коэффициенте между мужчинами и женщинами и β_5 = 0. То есть в гипотезе сразу присутствует два ограничения. Это гипотеза не об отдельном ограничении, что там β_3 = 0, а это гипотеза о том, что сразу два коэффициента β_4 и β_5 одновременно равны нулю. Здесь альтернативная гипотеза состоит в том, что хотя бы один из коэффициентов β_4 или β_5 не равен нулю. Проверить такую гипотезу можно с помощью следующей процедуры. На первом шаге мы оцениваем так называемую неограниченную модель. Неограниченная модель предполагает, что выборки, подвыборки по мужчинам и по женщинам, модели могут отличаться. То есть мы оцениваем одну модель, куда входит и β_4 male и β_5, помноженная на male на education. В этой модели мы считаем RSS — сумму квадратов остатка. Это RSS unrestricted, ur (unrestricted). После этого мы оцениваем ограниченную модель. В ограниченной модели мы предполагаем, что ограничения верны то есть в нашем случае мы предполагаем, что регрессия по мужчинам и по женщинам не отличается, то есть фактически мы просто оцениваем одно уравнение по всем наблюдениям, но не включаем переменную male, ни произведение male на education. То есть мы оцениваем по тем же наблюдениям модель с меньшим количеством регрессоров. Она называется ограниченной, из нее мы также вытаскиваем RSS, но этот RSS отличается — это RSS restricted. Оказывается, что при верной H_0 можно сконструировать дробь, которая асимптотически будет иметь χ² распределения. А при предварительном предположении о нормальности ошибок ε_i-тых, при фиксированных x, ну, практически эта же дробь, только поделенная на количество ограничений R, она будет иметь f распределение с r и (n- k) степенями свободы. Итак, как и в случае с коэффициентами, мы можем проверять гипотезы в двух случаях. Либо асимптотически при больших N, либо дополнительно предположив, что ε_i имеет нормальное распределение. Какие у нас здесь обозначения? RSS restricted и RSS unrestricted RSSr и RSSur — это, соответственно, две суммы квадратов остатков, полученные из ограниченной и неограниченной модели соответственно. N — это количество наблюдений, и на всякий случай, у k я поставил индекс ur, хотя зачастую его опускают, но я подчеркну, что k — это количество оцениваемых коэффициентов в неограниченной модели. Напомню, что количество коэффициентов разное в ограниченной и неограниченной модели, вот здесь нам нужно k — количество коэффициентов в неограниченной модели. Соответственно, в предположении нормальности ε, формула для статистики f имеет вид разница RSS restricted минус RSS unrestricted деленное на r, r — это количество ограничений в гипотезе H_0 в примере, который мы рассматривали, у нас было два ограничения β_4 = 0, β_5 = 0 то есть r равнялось двум, а в знаменателе RSS unrestricted деленное на n минус k unrestricted. И вывод мы делаем просто. Если f наблюдаемое больше f критического, то H_0 отвергается. Или если мы работаем в рамках большого количества наблюдений, то мы считаем χ² наблюдаемое и если оно больше χ² критического, то мы H_0 отвергаем. Следует отметить маленький факт, который относится к RSS ограниченному — restricted и RSS unrestricted. Что такое RSS? В методе наименьших квадратов, решается задача минимизации суммы квадратов. Соответственно, RSS unrestricted — это минимально возможная сумма квадратов. При этом, значит, алгоритм подбирает такие β₁ с крышкой, β₂ с крышкой, β_3 с крышкой и так далее, чтобы сумма квадратов остатков была поменьше. А что такое RSS restricted? Это та же самая попытка минимизировать сумму квадратов остатков, но выбирать можно не любые β₁ с крышкой, β₂ с крышкой, а только такие, где выполнено ограничение. Ну, например, где выполнено ограничение, что β_4 с крышкой равно нулю. Из этого автоматом следует, что RSS unrestricted меньше, чем RSS restricted. Одно дело, если я ищу самую низкую точку на местности, а другое дело, если я ищу самую низкую точку на местности, но я не могу сходить с тропинки. Понятно, что в первом случае, я найду точку ниже. Поэтому, если у меня нет ограничений, то минимальная точка, которую я найду, будет ниже, чем если у меня ограничение есть. А если сравнивать не RSS между собой в двух моделях, а TSS, то TSS restricted и TSS unrestricted они равны, даже обозначений собственно разных не вводят, обычно, потому что TSS это сумма y i-тых минус y среднее в квадрате и ни от какой модели, какие там объясняющие переменные не зависят. Поскольку мы знаем, что TSS — это ESS + RSS, то соответственно, автоматом следует, что ESS в неограниченной модели больше, чем ESS в ограниченной. И автоматически R²в неограниченной модели больше, чем R²в ограниченной модели.