[МУЗЫКА] [МУЗЫКА]
[МУЗЫКА] Всем привет!
Сегодня мы начинаем курс, который посвящен сравнению и выделению групп.
То есть мы будем разбираться с задачами сравнения тех групп,
которые существуют в наших данных, то есть мы уже знаем, что они есть,
и просто хотим сравнить их по какому-то параметру; либо как выделить группы,
в существовании которых мы не уверены, но есть признаки по которым группы,
с нашей точки зрения, могут выделяться.
Первый класс задач — это межгрупповые сравнения.
Второй класс задач — это алгоритмы кластеризации.
Начнем мы с межгрупповых сравнений.
В чем же, собственно, суть этой задачи?
В жизни нам очень часто приходится что-нибудь сравнивать: заведения по уровню
сервиса, университеты по рейтинговым позициям, школы по качеству подготовки,
регионы по уровню жизни,
и на основе этих сравнений мы принимаем какие-нибудь решения.
Ну или решения, или умозаключения какие-то делаем, то есть куда пойти поесть,
какую выбрать школу, идти ли работать в университет один или другой и так далее.
И на житейском уровне эти выборы, в общем, делать достаточно просто,
но всегда остается какая-то доля сомнения: правильно или неправильно выбрали,
неслучайно ли это отличается чуть-чуть, не ошиблись мы где-нибудь.
И статистика дает нам инструменты,
которые позволяют делать статистически обоснованные сравнения между группами.
Если нам статистическая обоснованность не нужна, то статистика нам тоже не нужна,
но если нам хочется быть уверенными в том, что то,
что мы получили на наших ограниченных данных, имеет место и в мире вокруг нас —
в таком случае нам придется использовать статистику в качестве инструмента,
использовать статистические критерии для проверки статистических гипотез.
Если вы вдруг не помните или забыли, что такое статистические гипотезы,
какие они бывают и как их проверять, то либо в материалах курса, либо в предыдущем
курсе этой специализации есть возможность посмотреть, познакомиться и вспомнить,
какие бывают гипотезы, что такое критерии и каков алгоритм их проверки.
Сейчас просто поймём, что мы будем иметь дело со статистическими гипотезами в
течение всего вот этого курса.
Когда мы говорим о сравнении групп, что же мы можем сравнивать?
Во-первых, ну самый такой простой вариант,
который первый приходит в голову — можем сравнивать среднее.
Берем средние ячейки, средние доходы, средние рейтинговые позиции,
средние баллы ЕГЭ, сопоставляем и что-то получаем.
Если нам нужно сравнить среднее, то мы будем иметь дело с гипотезами о равенстве,
в данном случае — средних значений в группах.
Также мы можем сравнивать дисперсии, можем сравнивать разбросы: насколько вариативные
значения в группе одной, другой, третьей.
И в данном случае мы будем иметь дело с гипотезами тоже о равенстве,
но о равенстве дисперсий.
И, наконец, мы можем сравнивать нечто не связанное с параметрами,
ни со средним, ни с разбросом, а можем сравнивать сами формулы распределения.
Либо вот формы функций распределения, либо там пропорции, процентное распределение —
ну то есть сравнивать формы распределения в разных группах.
В таком случае мы будем вести речь о гипотезах об однородности распределений в
группах.
Вот эти вот 3 класса задач могут решаться двумя крупными группами критериев:
параметрические и непараметрические.
В чем разница, и чем они отличаются?
Из названия очевидно, что параметрические критерии основываются на параметрах.
Что хорошего в параметрических критериях?
Считается, хоть, в общем-то, не все с этим согласны, что параметрические тесты,
как правило, более мощны.
Во-вторых, они нам дают достоверные результаты.
То есть мы знаем, что если у нас распределение определенной формы,
то среднее определяется хорошей оценкой центральной тенденции к генеральной
совокупности, а дисперсия — хорошей оценкой разброса.
Но для того чтобы мы могли пользоваться этими критериями,
нужно выполнить 2 требования.
Первый связан с типом шкалы.
Шкала может быть только метрической.
Мы помним из того для каких шкал рассчитываются какие величины,
что среднее и дисперсия считаются только на количественных или метрических шкалах.
Кроме того, нам важен не только тип шкалы, но и характер распределения признаков,
которые этой шкалой измерены.
Для того чтобы параметрические тесты можно было грамотно применять,
распределение должно быть нормальным или приближенным к нему.
То есть у нас нет выбросов, горб 1 — то есть распределение одномодальное, и,
в идеале, симметричное относительно там среднего модуля медианы или,
по крайней мере, существенно не отклоняется от этой формы.
Если не выполняются эти требования: либо шкала не метрическая, либо распределение
ненормальное, тогда мы параметрическими тестами пользоваться не можем.
Ну и прибегаем к непараметрическим, которые немножечко менее мощны,
может быть, но при этом они не привязаны к типу распределения,
они не так требовательны к типу шкалы.
Например, если у нас неметрические шкалы, то это вообще единственный для нас
вариант, а задачи, которые решают эти методы — одни и те же.
Давайте же посмотрим, что это за задачи?
Во-первых, у нас могут быть одновыборочные задачи, одновыборочные вопросы.
Это когда нам нужно статистику по нашей выборке сравнить с какой-нибудь
статистикой известной извне.
Да, откуда-то мы её знаем: или из теории, или из данных статистики.
К примеру: люди, которые работают с опросами, сравнивают, имеют по данным
госстатистики структуру населения, скажем, города или страны и могут сравнивать
структуру своей выборки: отражают ли они структуру населения или не отражают.
Другой класс задач — эта задачи двухвыборочные.
Здесь проще, здесь мы сравниваем 2 группы.
У нас есть одна группа и другая группа, мы их сравниваем.
Третий класс задач — это К-выборочные.
Казалось бы, в чем разница?
Содержательной разницы никакой.
Мы что сравниваем 2 группы, что 3, что 4 — это примерно одного вида вопросы, примерно
одного вида ответы содержательно, но технически у нас для решения таких задач
существуют разные статистические критерии, и мы это увидим в течение нашего курса.
Параметрические, непараметрические тесты предлагают решения для одновыборочных,
двухвыборочных и К-выборочных задач.
Кроме того, нужно провести еще одно важное разграничение, собственно,
о характере взаимосвязи между группами, которые мы сравниваем.
Здесь мы говорим о связанных и несвязанных выборках.
Что здесь важно?
Несвязанными выборками или независимыми выборками называются группы,
отбор в которые происходил независимо,
когда человек одновременно не может принадлежать двум группам.
То есть это группы, которые, грубо говоря, не имеют друг к другу никакого отношения.
Есть вот у нас, например, совы и жаворонки в выборке, и человек, ну может быть
кому-то и везет, но очень редко, не может быть совой и жаворонком одновременно.
Либо — либо.
Связаны выборки тогда, когда люди у нас каким-то образом связаны либо между собой,
либо что-то связывают, эти 2 класса объектов.
Какие здесь возможны варианты?
Один из вариантов — это если мы работаем с семейными данными,
и у нас есть муж и жена из одной семьи.
Тогда это у нас, в общем, группы разные, но семья одна.
Есть у нас определенная взаимосвязь между этими людьми — какие-то статистики для них
вообще может быть будут одни.
Другой вариант — это когда мы одних и тех же людей просим сравнивать разные вещи.
Например, нам интересно,
как жители какого-нибудь города оценивают качество решения двух видов проблем.
Оценили решение проблемы первой, оценили решение проблемы второй,
и мы сравниваем вот эти вот две оценки.
В таком случае мы опять-таки будем иметь дело со связанными выборками,
потому что люди у нас одни и те же.
Вопросы разные, а люди одни и те же.
Либо мы одних и тех же людей спрашиваем в разные промежутки времени.
Вот опросили, прошло 2 года — пришли к ним снова и опрашиваем их заново.
То есть это у нас 2 ряда данных, в общем-то, 2 выборки,
но люди одни и те же и, опять-таки, между ними существует связь.
Обобщим сейчас.
Если нам нужно решить задачу сравнения групп.
Во-первых, нам нужно сделать главный выбор между типом критериев:
параметрический это будет критерий или непараметрический.
Для этого нам нужно, во-первых, посмотреть на тип шкалы,
которой измерен признак: метрическая это шкала или неметрическая.
Если шкала неметрическая, то выбор сделан.
Критерии только непараметрические и больше можем ничего не делать.
Если шкала метрическая, в таком случае мы делаем еще один шаг и проверяем
распределение признака на нормальность.
Как мы можем это сделать?
Либо при помощи визуальных методов анализа: построить гистограмму,
наложить кривую нормального распределения и посмотреть, отличается или нет,
приблизительно прикинуть.
Если у нас есть серьезные отклонения — мы их увидим.
Либо у нас существуют тесты статистические.
Есть, например, один из критериев согласия — критерий Колмогорова-Смирнова,
который позволяет статистически оценить,
как значимое или не значимое распределение отклоняется от нормального.
Ну, в любом случае, какой бы метод мы ни выбрали — проверили, если распределение
приближено к нормальному — можем пользоваться параметрическими критериями.
Если распределение к нормальному не приближено и никак не приближается,
и выбросы мы убрали и прологарифмировали — не помогает,
то в таком случае мы пользуемся непараметрическими тестами.
После того как сделан этот выбор, мы смотрим на нашу задачу со стороны групп.
Сколько групп у нас задействовано?
Одновыборочная у нас задача или 2 группы нам нужно сравнить, или больше, чем 2.
Исходя из этого мы, опять же, выберем критерии определённого вида.
И, наконец, нам нужно будет понять, связаны наши группы или нет,
независимые выборки у нас или есть какая-то связь между выборками.
В зависимости от того, связаны или не связаны эти выборки,
мы делаем выбор уже между критериями.
Среди К-выборочных мы выбираем соответствующие для связанных людей или не
связанных, среди двухвыборочных, опять же, мы можем выбрать соответствующие для
связанных или не связанных, и после этого уже можем грамотно искать статистически
обоснованный ответ на вопрос, который нас интересовал в начале нашего поиска.
В течение этого курса мы научимся ориентироваться во всем этом пространстве,
правильно выбирать критерии, понимать, как они строятся,
как проверять гипотезу с их помощью, какие возможности есть, какие ограничения,
и что же, собственно, мы можем делать с группами, применяя статистические методы.