0:13
Что же можно сделать с мультиколлинеарностью?
Во-первых, нужно осознавать, что, может быть, эта мультиколлинеарность не так уж и
страшна, потому что теорема Гаусса-Маркова по-прежнему в силе, соответственно,
оценки, которые мы получаем, — они несмещённые,
и они обладают наименьшей дисперсией среди несмещённых оценок.
И поэтому если вас интересуют прогнозы и вам неважна интерпретация коэффициентов,
то на мультиколлинеарность можно вообще не обращать внимания.
Более того, если вот вам нужно оценить именно коэффициенты при именно ваших
переменных, то, к сожалению, ничего лучше в условиях мультиколлинеарности
придумать нельзя, потому что полученные оценки являются несмещёнными,
с наименьшей дисперсией среди несмещённых оценок.
Однако возможно вы не совсем уверены в форме спецификации модели,
вы можете не быть уверены в том,
что ваш показатель именно зависит и от валютного курса на момент начала торгов,
и от валютного курса на момент окончания торгов, вы можете просто предполагать,
что он зависит от какого-то валютного курса, но вы не знаете, от какого.
Тогда вы можете пожертвовать одной из переменных,
которые участвуют в линейном соотношении, и выкинуть её.
И есть, конечно, ещё идеальный вариант, который, как правило, недоступен,
поэтому это вариант-мечта — заполучить побольше наблюдений для оценивания модели.
Это тоже метод борьбы с мультиколлинеарностью.
Итак, первый метод — это ничего не делать и получить
и так несмещённые оценки с наименьшей возможной дисперсией.
Второй метод — это пожертвовать несмещённостью оценок с целью уменьшить их
дисперсию.
И третий.
третья возможность — это получить побольше наблюдений.
Как можно пожертвовать несмещённостью оценок и снизить дисперсию?
Есть два основных пути.
Первый путь, как мы уже сказали, — это выкинуть несколько переменных,
избавившись от нестрогого линейного соотношения.
И второй путь — это ввести штраф в метод наименьших квадратов,
то есть рассмотреть метод наименьших квадратов со штрафом.
Давайте рассмотрим простое упражнение, где мы, зная коэффициенты R-квадрат
во всех регрессиях всех объясняющих переменных на остальные, попробуем понять,
имеет ли место у нас мультиколлинеарность, и между какими переменными есть линейная
взаимосвязь, какие переменные имеет смысл, возможно, выкинуть из рассмотрения.
Давайте на примере посмотрим, как коэффициенты вздутия дисперсии позволяют
определить наличие мультиколлинеарности в модели линейной регрессии и выяснить,
между какими переменными есть зависимость.
Давайте рассмотрим следующий пример.
Исследователь оценил модель зависимости y от нескольких объясняющих переменных,
y_i = β₁ + β₂ *
x_i + β₃ *
z_i + β_4 * w_i
+ случайная составляющая ε_i.
И между регрессорами, между объясняющими переменными x, z и w,
потенциально ожидается мультиколлинеарность.
И известно, что при построении регрессора x на
остальные z и w R-квадрат второй во вспомогательной регрессии равен 0,5.
То есть это имеется в виду R-квадрат в регрессии x на остальные регрессоры,
то есть в регрессии (x_i = γ₁ + γ₂ *
zi + γ₃ * w_i + какая-то своя случайная ошибка.
R-квадрат во вспомогательной регрессии z на остальные
регрессоры равен 0,95.
То есть имеется ввиду, что это R-квадрат в регрессии z_i
= γ₁ + γ₂ * x_i + γ₃ * w_i + u_i.
Здесь я сознательно, чтобы не вводить новые буквы,
пишу одинаковые гаммы, хотя, конечно, результаты оценивания
регрессии x на остальные объясняющие переменные и регрессии z на остальные
объясняющие переменные, конечно же, отличаются, но поскольку мне они неважны,
то поэтому я для экономии букв буду использовать одинаковые буквы,
хотя, конечно, эта γ₁ и эта γ₁ — это разные константы.
И при регрессии третьего регрессора R-квадрат четыре оказался равен 0,98.
То есть это регрессия объясняющей переменной w_i на остальные
объясняющие переменные, w_i = γ₁ + γ₂ * x_i
+ γ₃ * z_i + u_i.
Соответственно, мне нужно выяснить,
есть ли мультиколлинеарность в этой модели,
6:14
Для ответа на эти вопросы мы воспользуемся коэффициентом вздутия дисперсии.
Я напомню, что коэффициент вздутия дисперсии, он считается отдельно
для каждого регрессора, для каждой объясняющей переменной.
Соответственно, коэффициент вздутия дисперсии считается как единичка делить на
один минус R² в соответствующей вспомогательной регрессии.
Мы легко их рассчитываем.
Коэффициент вздутия дисперсии для
объясняющей переменной x равен 1/ (1-
0,5) = 2.
Коэффициент вздутия дисперсии для переменной z равен
1/ (1- 0,95), = 20.
И коэффициент вздутия дисперсии для переменной
w равен 1/ (1- 0,98),
= 50.
Ещё раз хочу подчеркнуть,
что строгой границы для показателя вздутия дисперсии нет,
но, считается, что где-то значения больше десяти уже являются
мягким нестрогим признаком наличия мультиколлинеарности.
Соответственно, мы видим в данном случае, что переменная x
довольно плохо объясняется остальными переменными, то есть переменная x
— её можно считать линейно независимой от остальных переменных.
А вот переменные z и w достаточно сильно зависят от
других регрессоров, то есть у них высокий R², соответственно,
высокий коэффициент вздутия дисперсии, существенно больше 10-ти.
Соответственно, в данном случае мы видим,
что в модели имеет место мультиколлинеарность.
Эта мультиколлинеарность вызвана тем, что z хорошо объясняется другими
регрессорами и w хорошо объясняется другими регрессорами.
Ну и давайте попробуем ответить теперь на второй вопрос: какие же переменные,
какие регрессоры зависимы между собой?
Ну если их, условно говоря,
нарисовать вот так вот точечками: вот это x, это z, это w.
Вот мы видим, что x плохо зависит от z и w.
Плохо в том смысле, что зависимость далека от линейной: R² маленький,
коэффициент вздутия дисперсии маленький.
То есть x линейно не объясняется с z и w.
Однако z линейно объясняется x и w.
Но z не может объясняться линейно x,
поэтому получается, что связь линейная есть между z и w.
Мы так можем интерпретировать то, что коэффициент вздутия дисперсии
при z большой, коэффициент вздутия дисперсии при w большой,
однако x от них, от z и w, не зависит.
Соответственно, по имеющимся вспомогательным регрессиям мы можем
сделать вывод, что да, мультиколлинеарность, скорее всего,
имеет место, а связаны между собой переменные z и w.