[МУЗЫКА] [МУЗЫКА]
[МУЗЫКА] Сегодня
мы поговорим с вами про проверку предположения относительно модели.
Как вы помните, мы включаем в нашу модель линейной регрессии ошибку наблюдений ε.
И как вы помните, относительно этих ошибок мы делаем несколько важных предположений.
Ну, во-первых, мы предполагаем, что эти ошибки представляют собой
случайные величины и эти случайные величины обладают следующими свойствами.
Во-первых, их математическое ожидание равно нулю, также они имеют одинаковую
и конечную дисперсию, и также они независимы друг от друга.
То есть совместное матожидание у них равно нулю.
Но, наверное, самое важное предположение, которое мы делаем, это то, что данные
случайные величины имеют нормальный закон распределения с нулевым сдвигом.
Так вот, сегодня мы как раз-таки поговорим про то,
как эти предположения проверить по построенной модели.
Допустим, у нас есть некоторые данные, мы их сгенерировали самостоятельно, добавили
в них ошибку наблюдений в виде случайных величин, имеющих нормальное распределение.
По этим данным мы подобрали линейную регрессию.
Допустим, мы даже проверили оценку качества, посмотрели на
коэффициент детерминации, проверили его значимость с помощью критерия Фишера.
Также, например, мы прошли этап с отбором значимых признаков с помощью критерия
Стьюдента, и теперь необходимо проверить предположение об ошибках наблюдений.
Для этого мы работаем с выборкой так называемых остатков, то есть это выборка,
представляющая собой разницу между истинным значением отклика и тем
прогнозным значением отклика, который мы получаем по нашей линейной регрессии.
Для нашего случая, где модель у нас очень простая и очень хорошо описывает данные,
если мы посмотрим на то, как выглядит гистограмма остатков,
мы увидим следующую картину.
Мы видим, что остатки являются симметричными и очень похожи на
нормальное распределение.
Но недостаточно просто посмотреть на гистограмму,
желательно проверить гипотезу о согласии с помощью какого-то критерия согласия,
например с помощью критерия Андерсона — Дарлинга.
Мы получаем достигнутый уровень значимости для наших данных, равный 0,89,
что говорит нам о том, что мы попали в доверительную область,
а значит у нас нет оснований отвергнуть гипотезу о нормальности наших остатков.
А теперь давайте добавим к нашим хорошим данным несколько выбросов справа,
и, как мы видим, хоть у нас выбросов и немного (их всего 5 наблюдений),
но тем не менее их хватило, чтобы наша линейная регрессия,
которую мы подбираем по данным, несколько изменила угол наклона.
И если теперь по этим данным мы построим гистограмму остатков,
мы увидим следующую картину.
Во-первых, слева мы видим аномальные значения остатков,
которые мы получаем как раз таки для наших выбросов.
И также из-за того, что линейная регрессия поменяла угол наклона, можно увидеть,
что для остальных наблюдений остатки у нас перестали быть симметричными.
И если мы теперь проверим гипотезу о согласии с нормальным законом уже по этим
остаткам, то мы получим очень маленькое значение достигнутого уровня значимости,
что говорит нам о том, что мы попали уже в критическую область и, следовательно,
нам нужно отвергнуть гипотезу о нормальности наших остатков.
На самом деле посмотреть на гистограмму остатков всегда очень полезно,
потому что как раз таки мы можем увидеть вот такую ситуацию,
то есть мы можем увидеть, что остатки у нас несимметричные,
есть какие-то выбросы, которые не только портят картину с остатками,
но и, скорее всего, портят ту линейную регрессию, которую мы подбираем по данным.
В таком случае следует выявить эти наблюдения и исключить их из обучающей
выборки.
Ну и следующее предположение,
которое также очень важно проверить, — это предположение о том,
что остатки представляют собой независимые случайные величины.
Данное предположение обычно проверяется с помощью критерия Дарбина — Уотсона.
Статистика критерия Дарбина — Уотсона имеет следующий вид,
и по сути своей она зависит от такого показателя,
как коэффициент автокорреляции первого порядка.
Что такое коэффициент автокорреляции?
По сути своей коэффициент автокорреляции представляет обычный
коэффициент корреляции Пирсона, который считается между подвыборками из
одной и той же выборки, которую мы берем с некоторым сдвигом.
Например, коэффициент автокорреляции первого порядка берется со сдвигом в
единицу.
То есть, по сути, мы смотрим наличие корреляции между текущим значением
выборки и предыдущим.
Ну и если у нас корреляции нет,
то есть коэффициент автокорреляции у нас равен нулю, а это для нас очень хорошо,
потому что говорит о том, что наши ошибки наблюдений,
наши остатки представляют собой независимые случайные величины.
В таком случае статистика критерия Дарбина — Уотсона стремится к двум.
Если же корреляция у нас есть и она положительная,
то статистика критерия Дарбина — Уотсона у нас стремится к нулю.
Ну и если у нас корреляция есть, но она отрицательная,
то тогда статистика критерия Дарбина — Уотсона стремится к четырем.
Но на самом деле на практике критерий Дарбина — Уотсона обычно проверяется
по-другому.
Берутся некоторые границы dL и dU,
и статистика критерия Дарбина — Уотсона сравнивается уже с ними.
Данные границы dL и dU были получены по методу Монте-Карло,
и они доступны в таблицах и получаются в зависимости от объема выборки n,
количества факторов, которые у нас есть в модели k, и уровня значимости,
то есть ошибки первого рода, на который мы готовы пойти, α.
Ну и применение критерия Дарбина — Уотсона обычно выглядит следующим образом: мы,
в зависимости от n, k и α получаем наши границы dL и dU, считаем по нашим данным
статистику критерия Дарбина — Уотсона и смотрим, куда мы попали.
Как мы видим, слева у нас есть область,
где мы отвергаем нулевую гипотезу об отсутствии автокорреляции и говорим о том,
что у нас в данных присутствует положительная автокорреляция.
Справа у нас есть область,
где мы также отвергаем нулевую гипотезу об отсутствии автокорреляции и говорим,
что у нас в данных присутствует отрицательная автокорреляция.
И посередине у нас есть область, при попадании в которую у нас нет оснований
для того, чтобы отвергнуть нулевую гипотезу об отсутствии автокорреляции.
А еще, как мы видим, слева и справа у нас есть области,
при попадании в которые мы говорим о том, что у нас недостаточно информации,
для того чтобы отвергнуть или не отвергнуть нулевую гипотезу.
Ну и давайте посмотрим на то,
как применить критерий Дарбина — Уотсона на наших модельных данных.
Для начала рассмотрим пример без выбросов,
то есть когда у нас остатки имеют нормальное распределение.
В данном случае мы получаем, что коэффициент автокорреляции у нас получился
очень маленький, и, соответственно,
статистика критерия Дарбина — Уотсона у нас очень близка к двум.
Наши границы dL и dU, в зависимости от нашего объема выборки,
количества факторов и уровня значимости, мы получили следующим образом.
И, соответственно, мы можем сказать,
что мы как раз таки попадаем в среднюю часть, где у нас нет оснований для того,
чтобы отвергнуть нулевую гипотезу об отсутствии автокорреляции в остатках.
Ну а теперь, если мы посмотрим на то, как выглядит наше значение коэффициента
автокорреляции на остатках с наличием выбросов, то мы увидим,
что оно получилось достаточно большим — 0,72,
и статистика критерия Дарбина — Уотсона у нас уже ближе к нулю, чем к двум.
Значения границ dL и dU у нас те же самые, и, соотвественно,
мы можем сделать вывод, что мы попали как раз таки в левую часть,
где мы отвергаем нашу гипотезу H0 об отсутствии автокорреляции и говорим о том,
что в остатках у нас присутствует положительная корреляция,
что не очень хорошо и нужно с этим разбираться.
Ну и теперь вернемся к нашему примеру, где мы строили линейную регрессию количества
переходов на сайт в зависимости от различных факторов.
Как вы помните, после отбора значимых признаков у нас остались в качестве
факторов только клики (количество кликов) и факт наличия социальных сетей у фирмы.
Если мы посмотрим на остатки, которые мы получаем по итоговой модели,
то мы увидим гистограмму следующего вида.
Во-первых, как мы видим, гистограмма у нас достаточно симметричная, что хорошо,
но распределение у нас получилось слишком остроконечное, и из-за этого гипотеза о
согласии с нормальным законом по критерию Андерсона — Дарлинга у нас отвергается,
что дает нам повод еще более внимательно посмотреть на данные,
возможно что-то исключить и попробовать перестроить регрессию.
Если же мы посмотрим на критерий Дарбина — Уотсона,
то по нашим данным мы получили статистику со следующим значением,
и для нашего объема выборок и количества факторов мы получили
следующие границы dL и dU, и, следовательно, мы можем сделать вывод,
что мы также попали в центральную часть, то есть у нас нет оснований
отвергнуть нулевую гипотезу об автокорреляции остатков.
Ну и в следующий раз мы поговорим уже про то,
как по полученной нами модели, в качестве которой мы, допустим,
уверены, получить прогноз, в том числе точечный и интервальный.