В этом видео мы перейдем от предсказательных интервалов к доверительным и поговорим о том, чем они отличаются, и как эти доверительные интервалы строить. Ну давайте сначала вернемся к более общей задаче. Пусть у нас есть некоторая случайная величина X с функцией распределения, зависящей от неизвестного параметра θ. Как что-то о значении параметра θ можно сказать? Мы собираем выборку X с верхним индексом n, и по этой выборке считаем значение какой-то статистики θ с крышкой. Если мы хорошо подобрали статистику, то она может служить оценкой для неизвестного параметра θ. Например, если θ — это математическое ожидание X, то ее хорошая выборочная оценка — это выборочное среднее, то есть среднее всех X, которые есть в нашей выборке. Кроме точечных оценок, нас интересует интервальные, то есть доверительные интервалы. Доверительным интервалом для параметра θ называется такая пара статистик CL, CU, что интервал, который эта пара образует, содержит наше неизвестное значение параметра с вероятностью не меньше, чем 1 − α. 1 − α — это уровень доверия нашего интервала. Как вот эти CL и CU (нижние и верхние доверительные пределы) оценивать по выборке? Если у нас есть оценка θ с крышкой для параметра θ и мы знаем распределение θ с крышкой — обозначим его за F с индексом θ с крышкой, — то по этому распределению мы можем очень легко найти доверительный интервал для θ. Мы просто возьмем квантили этого распределения порядка α / 2 и 1 − α / 2, и эти квантили будут образовывать доверительный интервал для θ с уровнем доверия 1 − α. Давайте построим доверительный интервал для матожидания нормальной распределенной случайной величины. Снова будем предполагать, что дисперсия известна. Оценкой для параметра μ является выборочное среднее, то есть X с чертой и с индексом n. Поскольку наша выборка взята из нормального распределения, ее выборочное среднее также имеет нормальное распределение, поскольку нормальное распределение замкнуто относительно суммирования. Распределение выборочного среднего — нормальное, с тем же матожиданием μ и с дисперсией в n раз меньше, то есть σ² / n. Таким образом, для выборочного среднего, которое является случайной величиной, мы знаем распределение, а значит, мы можем построить для нее предсказательный интервал, как мы научились делать в предыдущем видео. Предсказательный интервал для выборочного среднего имеет вид: μ ± z порядка 1 − α / 2 * (σ / √n). Вот это деление на √n здесь появляется, поскольку дисперсия случайной величины и выборочное среднее равна σ² / n. В таком интервале наше выборочное среднее лежит с вероятностью, в точности равной 1 − α. Теперь, чтобы построить доверительный интервал для μ, единственное, что нам нужно сделать — это в неравенствах, которые стоят под знаком вероятности, перенести через знаки неравенства μ и выборочное среднее. Мы получим, что вероятность того, что μ лежит на отрезке от выборочного среднего −z порядка 1 − α / 2 * (σ / √n), до выборочного среднего +z порядка 1 − α / 2 * σ / √n = точно так же в точности 1 − α. Таким образом, мы построили доверительный интервал для μ. Давайте поговорим об отличиях между этими двумя интервалами (предсказательном и доверительном). В предсказательном интервале границы не случайны, случайно то, что стоит между этих границ, то есть наша случайная величина — выборочное среднее. В доверительном интервале все ровно наоборот: то, что стоит в середине — это не случайный параметр. Параметр μ — это какая-то фиксированная константа, просто мы ее не знаем. А случайными являются как раз границы интервала. Для нормально распределенной случайной величины с матожиданием μ и дисперсией σ² предсказательный интервал имеет вид: μ ± z порядка 1 − α / 2 * σ. Если мы хотим этот предсказательный интервал как-то оценивать по выборке, нам нужно избавиться от μ в его границах, потому что μ нам не известно. Единственное, что мы можем сделать, и лучшее, что мы можем сделать — это заменить μ на выборочное среднее. Таким образом, наш предсказательный интервал для случайной величины X — это выборочное среднее ± z порядка 1 − α / 2 * σ. В свою очередь доверительный интервал для μ, который мы по той же самой выборке можем построить, имеет вид: выборочное среднее ±z порядка 1 − α / 2 * (σ / √n), то есть он в √n раз уже. Это неудивительно, поскольку предсказательный интервал оценивает диапазон, в котором меняется сама случайная величина, а доверительный интервал для среднего говорит, в каком диапазоне, мы предполагаем, лежит среднее этой случайной величины. Вообще говоря, этой техникой можно пользоваться для построения доверительных интервалов для матожидания не только нормально распределенных случайных величин, но и практически любых других. На помощь нам приходит центральная предельная теорема. Она говорит нам, что распределение выборочного среднего по достаточно большой выборке — если распределение исходной случайной величины не слишком скошено — может быть аппроксимировано нормальным с средним, равным среднему исходной случайной величины, и дисперсией, которая в n раз меньше. Таким образом, доверительный интервал для матожидания исходной случайной величины имеет вид: выборочное среднее ± z порядка 1 − α / 2, умноженное на дисперсию нашей случайной величины, если она известна, деленное на √n. Итак, в этом видео мы поговорили о доверительных интервалах, мы обсудили, чем они отличаются от предсказательных и как их можно строить, зная распределение статистик. Мы построили доверительные интервалы для выборочного среднего нормального распределения с известной дисперсией. Чтобы двигаться дальше, нам понадобится ввести еще несколько распределений. В следующем видео мы поговорим о трех распределениях, которые порождаются нормальным.