Всем привет.
Тема сегодняшней лекции - сравнение средних для k независимых выборок.
Ранее вы уже познакомились с тем, что делать,
когда у вас одна выборка и мы хотим сравнить ее в среднем с константой,
когда у нас две выборки и на прошлой лекции мы рассмотрели случаи,
когда нас k независимых выборок,
однако там, как вы помните,
были определенные условия, и сегодня мы говорим о том,
что делать, когда эти условия не выполняются.
Но сначала напомним примеры задач.
Допустим мы можем столкнуться с такой задачей,
когда хотим исследовать среднее в различных городах по фирмам.
Например, мы хотим посмотреть,
что в одних и тех же городах существуют различные фирмы,
у них среднее количество клипов и что это примерно одинаковое число.
Понятно, что разное количество фирм,
разные аудитории, но как-то надо все это сравнить.
Либо опросные данные может быть,
что опросили людей о том,
видят ли они сборную России победителем на чемпионате мира,
опросили один раз, потом прошло некоторое время,
может быть даже сборная России сыграла несколько матчей,
опросили другую группу людей,
потом еще третью и так далее.
То есть их надо посмотреть одинаково ли была всегда вера в нашу команду.
Как это сделать, сегодня мы как раз об этом и поговорим.
И на прошлой лекции вы уже познакомились с дисперсионным анализом,
который позволяет на самом деле ответить на этот вопрос,
однако позволяет ответить только тогда,
когда у нас выполняется нормальность данных,
все данные распределены нормально,
и у нас разница в дисперсии в группах есть.
Как мы знаем, нормальность данные далеко не всегда у нас есть,
а равенство дисперсии так еще реже.
Так вот, что делать когда это не выполняется,
мы как раз об этом поговорим.
То есть у нас есть вся та же самая гипотеза о равенстве средних, у нас есть k выборок,
и мы проверяем то, что средняя k выборки равно всем остальным,
и это основная гипотеза.
Альтернативная, что существует хотя бы две выборки,
у которых неравны средней.
Проверки данной гипотезы служат критерий Краскела-Уоллиса.
Данный критерий является многовыборочным обобщением критерий Манна-Уитни,
с которой мы познакомились ранее,
и как критерий Манна-Уитни, он также является ранговым,
поэтому у нас на входе есть k выборы,
как можно различного объёма даже, то есть n1,
n2 - это объемы выборок,
и что мы делаем, мы объединяем их в одну большую выборку,
получается выборка x какая-то объема N,
и после этого мы все ранжируем, то есть Rij,
это у нас будет ранг житого элемента It выборки,
полученным в вариационном ряду,
и вот таким вот образом выглядит статистика критерия,
где она довольно громоздкая,
здесь вот все что-то нам нравится статистики,
почему-то +1 поделить на 2,
12, какие-то числа написаны,
Ri - эта сумма рангов It этой выборки,
Ni - это объем It выборки,
и Ri с чертой, это средний рамки It выборки.
Вот такая может быть не очень понятная статистика однако идея очень
простая: если у нас проявляется гипотеза о равенстве средних, то мы предполагаем,
что вот какие-то изменения в выборках,
они обусловлены случайностями, то есть что-то просто такие случайности, какой-то шум,
поэтому о ранге средней ранге всех выборок должны быть примерно одинаковы,
то есть не должно быть такого, что у одной выборки,
допустим все ранги маленькие,
там ну какие-то, у другой - все очень большие, такого быть не должно.
Все должны быть как-то вперемешку,
поэтому в среднем должно быть все равно, и поэтому,
как раз пытаемся построить такую статистику и появляется именно вот это.
Данный критерий является правосторонним,
и если у нас объем выборов небольшой, менее 8,
и выборок их немного, менее 5,
то существуют таблицы вот эти большие,
по которым можно определить критические значения и понять,
отвергается либо не отвергается гипотеза,
однако если значений больше,
то есть объем выборок больше,
их количество больше, то тогда существует некоторые аппроксимации, ну их всего две.
Рассмотрим первый более подробно, именно аппроксимации Краскела-Уоллиса,
здесь мы видим, что к исходной статистике H добавилось еще различных расчетов.
Тут опять мы видим какие-то волшебные числа 3, 6, пятерка появилась,
v1 и v2 - это степени свободы,
и вот такая статистика, новая, полученная,
она уже имеет предельное распределение Фишера с v1 и v2 степенями свободы,
и уже по нему можно понимать,
отвергается либо не отвергается гипотеза.
Существует также вторая аппроксимация Имана-Давенпорта,
но она сложнее, однако,
она точнее и она уже реализована в некоторых стат пакетах,
то есть можно даже не понимать особо как она работает,
тоже как-то подсчитано что-то здесь,
однако, она работает даже получше.
И приведем пример: допустим мы хотим проверить гипотезу о том,
что в наших десяти городах в
среднем фирмы в рубрике бары получают одинаковое количество клипов,
то есть у вас есть город Новосибирск,
допустим Омск, в них есть конечно различное количество фирм, баров именно,
но все они получают какое-то количество кликов, и хотим проверить,
что касается среднему, между всеми десятью городами есть какое-то равенство.
Такая гипотеза не очень оптимистичная,
и мы пользуется критериями Краскела-Уоллиса и получается такое значение статистики,
и вот такой маленькое p value,
то есть гипотеза отвергается.
Это говорит о том, что нет,
не равны, то есть существуют хотя бы два города,
в которых различная среднее количество клипов на фирму приходит в рубрике бары.
То есть с помощью критерий Краскела-Уоллиса мы
можем сравнить средний для k независимых выборок.
А в следующей лекции мы поговорим про k зависимых выборок.