0:00
[МУЗЫКА]
[МУЗЫКА] [МУЗЫКА]
В теории вероятности и статистики корреляция — это свойство двух и
более случайных величин быть взаимозависимыми.
Мы будем говорить, что существует корреляция между случайными величинами x и
y, если изменение одной из них приводит к закономерным изменениям во второй.
При этом можно отметить,
что такая зависимость не обязательно носит причинно-следственный характер.
Например, может быть, что обе эти случайные величины изменяются
вследствие изменения некоей третьей величины,
которая является причиной закономерности в их поведении.
Также отсутствие корреляции необязательно означает,
что между поведением случайных величин нет какой-либо связи.
Также корреляция между некоторыми параметрами для выборки не обязательно
означает наличие такой же корреляции между параметрами в генеральной совокупности.
Одним из числовых показателей корреляции является ковариация,
которая является мерой линейной зависимости двух случайных величин.
Пусть у нас имеются две случайные величины x и y,
которые заданы на одном и том же вероятностном пространстве.
Тогда ковариацией x и y будет называться математическое ожидание
произведения отклонения этих случайных величин от их средних значений.
Из формулы видно, что ковариация линейно зависит от каждой из случайных величин.
Для выборок ковариация определяется аналогичным образом,
но вместо математического ожидания используется среднее значение по выборке.
Ковариация может иметь положительное или отрицательное значение.
В случае положительного значения ковариации мы можем предположить,
что отклонение случайных величин от своих средних значений происходит в
одном и том же направлении для обеих случайных величин.
Тогда говорят о положительной корреляции между этими случайными величинами.
Если же имеет место отрицательная корреляция и значение
ковариации — отрицательное число, то мы можем предположить, что росту
одной из этих случайных величин чаще сопутствует уменьшение другой и наоборот.
Из определения ковариации можно вывести ряд ее свойств.
В частности, легко убедиться, что корреляция не превосходит по
модулю произведения среднеквадратичных отклонений обеих случайных величин.
Для двух независимых случайных величин ковариация равна нулю.
С другой стороны, равенство нулю ковариации необязательно говорит о том,
что эти случайные величины являются независимыми.
Действительно, мы можем рассмотреть, например, две случайные величины, которые
ведут себя следующим образом: одна из них равна своему математическому ожиданию
тогда и только тогда, когда другая от математического ожидания отклоняется.
Очевидно, между этими случайными величинами есть какая-то логическая
зависимость, хотя их ковариация всегда будет равна нулю.
Ковариация двух случайных величин измеряется в единицах,
которые равны произведению единиц измерения данных случайных величин.
В частности, при переходе от одной системы единиц к другой,
хотя бы для одной из случайных величин значение ковариации будет изменяться.
Это может быть не очень удобно, и от этого недостатка избавлен следующий параметр,
который мы рассмотрим.
Коэффициент корреляции Пирсона для двух случайных величин определяется как
ковариация этих величин,
деленная на произведение их среднеквадратичных отклонений.
Поскольку мы говорили ранее, что ковариация случайной величины по модулю не
превосходит произведения среднеквадратичных отклонений,
как следствие можно заключить,
что коэффициент корреляции Пирсона всегда лежит в пределах от −1 до +1.
Так же, как и ковариация, коэффициент корреляции Пирсона равен нулю
для независимых случайных величин, но при этом равенство нулю коэффициента
корреляции не означает независимости этих величин.
Преимуществом коэффициента корреляции является то,
что он не зависит от единиц измерения случайных величин.
По знаку коэффициента корреляции так же, как и для ковариации, мы можем делать
вывод о положительной или отрицательной корреляции между случайными величинами.
При проведении статистических исследований важно учитывать такое понятие,
как выбросы.
Выбросом называется наблюдение,
которое сильно выделяется из общей картины для выборки.
Такие отличающиеся от остальных наблюдения могут быть
следствием ошибок в измерении, помех или признаком того, что
в генеральной совокупности действительно наличествуют редкие, аномальные элементы.
Наличие в выборке даже небольшого количества таких аномальных элементов
может значительно исказить значение вычисляемой характеристики случайного
процесса.
Большинство исследованных нами ранее характеристик, таких как математическое
ожидание, дисперсия и прочее, являются чувствительными к выбросам.
Чтобы избежать влияния выбросов, используют специальные,
так называемые робастные методы.
Самые простые из них предполагают просто отбрасывать аномальные значения,
которые находятся слишком близко к верхнему или нижнему значению выборки.
Под ресемплингом в статистике понимают группу методов, которые служат,
чтобы имитировать большее количество данных наблюдений,
чем у нас имеется в действительности.
Если у нас нет возможности получить больше наблюдений случайного эксперимента,
мы можем попробовать сгенерировать новые псевдовыборки на основе тех наблюдений,
которые уже имеются в нашем распоряжении.
Таким образом, у нас получится больше возможности исследовать и
испытать некоторые модели для данных в генеральной совокупности,
используя только имеющуюся у нас выборочную совокупность.
Эти методы используются при оценке точности вычисления некоторых выборочных
характеристик, например, математического ожидания, а также для оценки модели
данных, которая построена для генеральной совокупности, для проверки ее качества.
Метод складного ножа служит для оценки точности вычислений некоторых
выборочных характеристик.
Он предполагает, что мы по очереди удаляем по одному наблюдению из нашей выборки и
вычисляем требуемую характеристику на оставшихся n − 1 наблюдений.
Таким образом, после повторения этого цикла n раз мы получим n
различных значений требуемой характеристики,
которые после можем использовать для вычисления усредненного значения.
Метод перекрестной проверки — это еще один метод ресемплинга выборочной совокупности.
Он служит для оценки качества модели данных генеральной
совокупности и предполагает, что мы обучаем данную модель на k
− 1 частях и проверяем на k-той части нашей выборочной совокупности.
Про обучение различных моделей будет сказано подробно позже в этом курсе.
Но на самом простом уровне можно сказать,
что у нашей модели имеется некоторое количество неизвестных параметров,
которые мы и вычисляем, применяя ее к выборочной совокупности.
Таким образом, для применения метода перекрестной проверки мы сперва разбиваем
нашу выборочную совокупность на k частей, и потом для каждой из частей мы ее убираем
из выборочной совокупности и обучаем модель на оставшейся части выборки.
Обучив модель и получив конкретные значения параметров этой модели,
мы проверяем ее на удаленной ранее k-той части.
Повторив этот процесс k раз, мы можем убедиться, что модель действительно
хорошо работает и за пределами выборочной совокупности, на которой она обучалась.
В заключение скажем несколько слов про метод бутстрэп.
Это еще один метод ресемплинга выборочной совокупности, который предполагает
генерирование новых случайных псевдовыборок на основе одной имеющейся.
Проще всего получить новую выборку объема k по имеющейся выборке
объема n — это k раз случайно выбрать один из элементов нашей выборки объема n.
Часто используется n = k,
и порождается множество новых выборок того же размера, что и выборка их порождающая.
Отличительной особенностью метода бутстрэп от предыдущих рассмотренных методов
ресемплинга как раз и состоит в том,
что возможно генерировать псевдовыборки того же размера, что и исходная выборка,
использованная в качестве основы.