[БЕЗ_ЗВУКА] В течение этого урока мы с вами научимся строить интервальные оценки. Мы уже немного говорили об этом в первом курсе нашей специализации, когда разбирали некоторые частные случаи для построения доверительных интервалов, в частности, использование правила двух сигм. В этом виде нам предстоит уточнить правило двух сигм и разобраться с тем, что такое предсказательный интервал. Давайте вспомним, как выглядит правило двух сигм. Если у вас есть нормально распределённая случайная величина с матожиданием μ и дисперсией σ², то 95 % её вероятностной массы примерно приходится на интервал μ ± 2σ. То есть ваша случайная величина x принимает значения от μ − 2σ до μ + 2σ с вероятностью примерно 95 %. Во‐первых, это оценка неточная, во‐вторых, хочется такие оценки строить не только для 95 %‐ной вероятности, но и для произвольной. Вот именно это мы сейчас и научимся делать. Нам понадобится ещё одно определение из первого курса — определение квантиля. Давайте вспомним, что это такое. Квантилем порядка α, где α от 0 до 1, случайной величины x называется такая величина Xα, что наша X лежит слева от неё с вероятностью не меньше, чем α, и справа от неё с вероятностью не меньше, чем 1 − α. Для квантиля есть очень много эквивалентных определений. В частности, если наша величина X задана функцией распределения F(x), то квантилем будет значение обратной к функции распределения в точке α. То есть наименьшее X, такое, что наша функция распределения F(x) ≥ α. Давайте теперь определение квантиля используем для уточнения правила двух сигм. Мы хотим найти такие границы отрезка, что наша случайная величина X лежит внутри него с вероятностью ровно 95 %. Перед вами график плотности нормального распределения. Напомню, что плотность — это такая функция, интеграл от которой по всей числовой прямой равен 1, а по любому отрезку — вероятности попадания нашей случайной величины в этот отрезок. Интеграл — это площадь под кривой. Давайте отрежем на этом графике хвосты, левый и правый, так, чтобы площади этих хвостов были равны 2,5 %. Тогда площадь под центральным куском нашего графика будет равна 95 % — 0,95. По определению квантиля, границы таких хвостов задаются 2,5 %‐ным и 97,5 %‐ным квантилями. Всё. Искомый интервал найден. Вероятность того, что наша случайная величина лежит на отрезке от 2,5 %‐ного до 97,5 %‐ного квантилей, равна в точности 95 %. Такой трюк можно делать с произвольно распределённой случайной величиной. Если ваша случайная величина задаётся функцией распределения F(x), то вероятность того, что она принимает значения из отрезка от квантиля порядка α/2 до квантиля порядка 1 − α/2, равна 1 − α. Отрезок от Xα/2 до X1 − α/2 называется предсказательным интервалом для случайной величины X порядка 1 − α. Если мы имеем дело с нормально распределённой случайной величиной с матожиданием μ и дисперсией σ², её квантили можно выразить через μ, σ и квантили стандартного нормального распределения, то есть нормального распределения со средним 0 и дисперсией 1. Предсказательный интервал принимает вид интервала μ ± z порядка 1 − α/2 * σ. Нормальное распределение, стандартное, симметрично, поэтому z порядка α/2 равно −z1 − α/2. Квантиль стандартного нормального распределения порядка 1 − 0,05/2, то есть порядка 0,975, равен примерно 1,96. Или, если ещё сильнее округлять, — 2. Вот именно отсюда и берётся правило двух сигм. Итак, в этом видео мы узнали, как квантили используются для построения интервальных оценок. Мы узнали, что такое предсказательный интервал, а также с помощь аппарата квантилей уточнили правило двух сигм. В следующих видео мы начнём делать примерно то же самое с доверительными интервалами.