Одним их возможных решений проблемы эндогенности является использование так называемых инструментальных переменных. Итак, мы хотим оценить состоятельно коэффициент β2 в модели, представленной в следующей форме: yi = β1 + β2xi + β3di + εi. И у нас нарушена одна из предпосылок, а именно: есть эндогенность, то есть есть ковариация ну, скажем, между xi и ошибкой εi. Соответственно, один из возможных выходов состоит в нахождении специальной новой так называемой «инструментальной» переменной zi. Это новая «инструментальная» переменная zi, — она должна обладать двумя принципиальными свойствами: во-первых, она не должна быть коррелирована с ошибкой εi и, во-вторых, она должна быть связана, то есть коррелирвана с проблемным регрессором, который связан с ошибкой, то есть Cov(zi, xi), наоборот, нулю равняться не должна. Соответственно, как использовать эти самые инструментальные переменные? Их использование не просто подмена и регрессия y на z и d вместо регрессии y на x и d, — использование чуть-чуть сложнее. Итак, у нас есть модель: yi = β1 + β2xi + β3di + случайная ошибка εi, и эта случайная ошибка коррелирована с x. Соответственно, мы построим не одну регрессию, мы построим две вспомогательных регрессии. Метод называется: двухшаговый метод наименьших квадратов, или метод инструментальных переменных. На первом шаге мы построим регрессию проблемного регрессора, — в нашем случае x, — на инструментальную переменную, то есть мы построим регрессию xi на zi. И из этой регрессии мы получим спрогнозированные значения x, — xi с крышечкой. Это обычные прогнозы, полученные обычным методом наименьших квадратов. И на втором шаге мы оценим ещё одну модель, а именно: мы оценим исходную модель, в которой вместо регрессора xi мы будем использовать прогнозы из регрессии предыдущего шага, то есть xi с крышечкой. То есть в данном конкретном примере мы построим регрессию yi = β1 + β2xi с крышечкой + β3di (если di не был проблемным регрессором, не был коррелирован с εi, то ничего с ним менять не надо) плюс, соответственно, новая ошибка ui. И мы тут получим новые оценки коэффициентов. Естественно, эти оценки коэффициентов, — они, поскольку получены двухшаговым методом, — они не совпадают просто с оценками метода наименьших квадратов, и эти новые оценки называются оценками инструментальных переменных, то есть мы получим новые β1 с крышечкой, β2 с крышечкой, β3 с крышечкой. Соответственно, мы используем слова «метод инструментальных переменных» или «двухшаговый метод наименьших квадратов» как синонимы, и оценки иногда называют β с крышкой 2OLS, ordinary least squares, либо их называют β с крышкой instrumental variables, то есть метод, оценки метода инструментальных переменных: это для нас абсолютные синонимы. Давайте на примере посмотрим, что произойдёт в случае применения оценок метода инструментальных переменных, или оценок метода двухшагового наименьших квадратов, к задаче парной регрессии, а именно: оказывается, что в этом случае, если у нас модель имеет вид yi = β1 + β2xi + εi, то метод наименьших квадратов, его формулу мы помним, — это β2 с крышкой равняется выборочная ковариация между x и y делить на выборочную дисперсию x. А можно доказать, что оценки метода инструментальных переменных в этом простом случае будут иметь довольно простой вид, а именно: β2 с крышкой, полученное методом инструментальных переменных, равняется выборочная ковариация между z и y делить на выборочную ковариацию между z и x. Давайте на простом примере посмотрим, как оценки метода инструментальных переменных спасут ситуацию, то есть дадут состоятельные оценки в случае пропущенного регрессора. Посмотрим, как наличие инструментальной переменной может помочь исправить проблему пропущенного регрессора. Итак, я хочу оценить модель в форме β1 + β2xi + β3di + εi, но di — регрессор не наблюдается, у нас нет данных по di. Соответственно, я могу представить эту модель в эквивалентной форме, объявив вот эту составляющую новой ошибкой и сказав, что yi = β1 + β2xi + ui. И мы предположим какие-нибудь конкретные значения дисперсий и ковариаций, то есть мы предполагаем, что Var(xi) = Var(di) = 9; Var(εi) = 1; Cov(xi, di) = ‒ 6. И мы предполагаем, что в исходной форме эндогенности не было, то есть xi и di не были коррелированы с ε. То есть мы предполагаем, что Cov(εi, di) = 0 и Cov(εi, xi) = 0. Как мы видели, если я буду просто использовать оценки метода наименьших квадратов в этой модели, то мы получим несостоятельные оценки и смещённые оценки. Давайте посмотрим, что произойдёт, если мы будем использовать оценки метода инструментальных переменных. Предположим, что нам нашлось каким-то чудесным образом найти zi, инструментальную переменную, при этом эта самая zi как инструментальная переменная коррелирована с xi, и пусть эта корреляция равна 1. Однако эта инструментальная переменная zi некоррелирована с ошибкой, то есть с ui, — эта корреляция равна 0. Ну давайте посмотрим. β2 с крышкой метода инструментальных переменных выглядит как выборочная ковариация между z и y делить на выборочную ковариацию между z и x. В силу уже применявшегося закона больших чисел, закон больших чисел утверждает, что это стремится к ковариации zi и yi делить на ковариацию между инструментальной переменной и xi. Подставим yi и получим, что это есть ковариация между zi и β1 + β2xi + β3di + εi делить на ковариацию zi и xi. И смотрим: наша инструментальная переменная zi некоррелирована c ui, по условию. Вот это есть не что иное, как ui. И константа β1 тоже никак не влияет на ковариацию. У нас в числителе, таким образом, остаётся β2 помножить на ковариацию zi с xi и в знаменателе у нас находится ковариация zi с xi. И мы видим, что, собственно, вне зависимости от этих показателей, чему равнялась дисперсия, чему равнялась конкретно дисперсия ε, какая конкретно была ковариация, главное, чтобы она не была нулевая, мы получим, что результат в пределе равен β2. То есть с введением и использованием инструментальной переменной мы получили способ состоятельно оценить неизвестный коэффициент β2.