Привет! В этом видео мы потренируемся применять критерий Стьюдента на практике. Тренироваться будем на известной задаче Treatment effects of methylphenidate. Это известное исследование, в рамках которого 24 пациента с синдромом дефицита внимания и гиперактивностью в течение недели применяли препарат и плацебо. После этого пациенты проходили тест на способность к подавлению импульсивных поведенческих реакций, после чего метилфенидат и плацебо менялись местами, и пациенты вновь проходили такой же тест. В задаче требуется оценить эффективность применения препарата. Таким образом, мы имеем следующие данные. Для каждого пациента мы имеем измерения его способности к подавлению импульсивных поведенческих реакций после приема препарата и после плацебо. Вот давайте эти данные загрузим и попытаемся их визуализировать. По осям X и Y отметим плацебо и метилфенидат соответственно и отметим точки, соответствующие пациентам. Также проведем диагональную прямую и увидим, что практически все точки лежат выше этой прямой. Это дает нам основания предполагать, что применение препарата способно помочь пациентам, но, конечно, мы не можем это оценивать просто по графику. Нам нужен некоторый более строгий критерий для проверки таких гипотез. Вот ровно этим критерием будет выступать критерий Стьюдента. Для начала давайте еще немножко посмотрим на данные, а именно отобразим гистограммы распределения проверяемой способности. Видим, что гистограммы разные, их довольно сложно сравнивать, но вот можем сказать, что, например, минимальное значение способности к подавлению импульсивных реакций при приеме плацебо меньше, чем при приеме препарата, но и максимальное значение при приеме препарата больше, однако это все равно не дает нам возможности формально сказать, что препарат помогает. Итак, давайте начнем с одновыборочного критерия Стьюдента. Исходя из того, что способность к подавлению импульсивных поведенческих реакций измеряется по шкале от 0 до 100, то можно предположить, что в хорошо откалиброванной сбалансированной выборке средняя способность к подавлению импульсивных поведенческих реакций составит 50. Тогда, для того чтобы проверить гипотезу о том, что наши пациенты в выборке действительно нуждаются в лечении, давайте проверим гипотезу о том, что их средняя возможность к подавлению импульсивных поведенческих реакций отличается от 50. Для этого нам понадобится одновыборочный тест Стьюдента. Гипотеза H0 будет следующая: среднее значение способности к подавлению импульсивных поведенческих реакций равна 50. Соответственно альтернатива — не равняется 50. Итак, для того чтобы воспользоваться одновыборочным тестом Стьюдента, нам понадобится библиотека scipy, воспользуемся модулем stats, функция t-test one sample, одновыборочный t-test Стьюдента. Итак, передаем туда наши данные, это data.Placebo, потому что нас интересуют пациенты до применения препарата, и передаем туда параметр 50 — это то значение, с которым мы сравниваемся. Итак, видим, что значение статистики равняется −4,4, и pvalue довольно маленькое. Это позволяет нам уверенно отвергнуть нулевую гипотезу и сказать, что среднее не равно 50. Для того чтобы на это посмотреть, давайте интервально оценим среднее по выборке. Сделаем это с помощью метода zconfint. Ну вот видим, что наш интервал целиком лежит левее 50, что в среднем способность измеряется от 35 до 44 пунктов. Ну это меньше 50. Итак, мы убедились, что действительно наши пациенты нуждаются в некоторой помощи и теперь давайте применим двухвыборочный критерий Стьюдента для независимых выборок, для того чтобы оценить, помогает ли исследуемый препарат. Для того чтобы использовать двухвыборочный критерий Стьюдента, сначала нужно убедиться, что распределения выборок существенно не отличаются от нормального. Для этого давайте построим Q-Q plot для каждого из распределений: для плацебо и для препарата. Итак, Q-Q plot строится достаточно просто, это делается с помощью функции probplot из модуля stats, и давайте его проанализируем. Итак, в общем-то, мы видим, что и в том и в другом случае наши точки не сильно отличаются от прямой, они лежат не очень далеко. Это дает нам основание предполагать, что данные распределены с некоторым распределением, которое сильно от нормального не отличается. Однако для того чтобы проверить это более строго, давайте воспользуемся критерием Шапиро-Уилка. В данном случае нулевая гипотеза будет соответствовать тому, что способность к подавлению реакций распределена нормально, соответственно, альтернатива — распределена по-другому, не нормально. Итак, сначала давайте проверим тест для плацебо. Видим, что pvalue получается 0,003, довольно маленькое значение. И теперь для Шапиро. Видим, что pvalue получается равным 0,05. Ну, в общем-то, значения получаются довольно маленькими, а значит нам придется отвергнуть гипотезу H0. Получается, что данные все-таки не распределены нормально. Однако если мы вернемся к предыдущем рисункам, мы видим, что да, действительно, распределение от нормального отличается, но не очень сильно. А мы знаем, что критерий Стьюдента работает в условиях, когда распределение не является нормальным, но существенно от него не отличается. Значит, давайте все-таки попробуем применить критерий Стьюдента. Итак, в случае применения критерия Стьюдента имеем следующую нулевую гипотезу: среднее значение способности к подавлению импульсивных поведенческих реакций после применения плацебо и после применения препарата не отличаются. Альтернативная гипотеза: средние по выборкам отличаются. Итак, для того чтобы воспользоваться готовой реализацией двухвыборочного теста Стьюдента в случае независимых выборок, нам снова понадобится библиотека scipy, модуль stats. В данном случае мы используем функцию ttest ind, от слова independent. Итак, в метод мы передаем данные, связанные с одной выборкой, с другой выборкой, а также указываем параметр equal var (equal variance) равняется false. Потому что у нас нет данных о том, что дисперсии одинаковые. Итак, давайте посчитаем t-test и увидим, что значение статистики равняется −1,45 и pvalue равняется 0,15, то есть pvalue достаточно большое, а значит, мы не можем отвергнуть нулевую гипотезу. Получается, что вероятнее всего, препарат все-таки помогает. Давайте интервально оценим разность средних по этим двум выборкам. Для этого воспользуемся методом CompareMeans. Видим, что доверительный интервал получился следующим: от −2 до 12. То есть фактически наше среднее все-таки скорее больше, чем 0, однако 0 лежит в этом интервале. Получается, что однозначно сказать все-таки довольно сложно. Итак, давайте вспомним то, что на самом деле мы с вами рассматриваем 24 пациента, каждый из которых одну неделю применял препарат, а другую неделю применял плацебо. Получается, что выборка, связанная с применением плацебо и выборка, связанная с применением препарата являются зависимыми. Таким образом, в данной задаче мы можем использовать двухвыборочный критерий Стьюдента для связанных выборок. Вот давайте его применим. Для того чтобы этот критерий использовать, нам также нужно убедиться в нормальности данных. Давайте рассчитаем попарные разности и убедимся, что распределение попарных разностей существенно не отличается от нормального. Давайте снова нарисуем Q-Q plot, сделаем это с помощью метода probplot, и убедимся, что наши точки находятся очень близко к прямой, значит распределение, скорее всего, похоже на нормальное. Снова применим критерий Шапиро-Уилка, в данном случае нулевая гипотеза — попарные разности распределены нормально, альтернатива — это не так. Итак, применяем критерий с помощью метода stats.shapiro, передаем туда разности и смотрим на значения. Видим, что pvalue получилось большое, 0,89, а значит, нулевую гипотезу отвергать нельзя, данные распределены нормально. Отлично, можно смело применять критерий Стьюдента. В данном случае наша нулевая гипотеза имеет следующий вид: средние значения к подавлению импульсивных поведенческих реакций одинаковы для пациентов, применявших плацебо и применявших препарат. Соответственно, альтернатива: средние значения способности отличаются. Итак, воспользуемся реализацией из модуля stats библиотеки scipy, функция называется ttest rel, от слова relative (зависимые) и передаем внутрь функции данные, связанные с применением плацебо и с применением препарата. Давайте рассчитаем и увидим, что значение статистики составляет 3,2, pvalue — всего лишь 0,004. Это значит, что мы можем уверенно откинуть нулевую гипотезу, отвергнуть ее, и прийти к выводу, что все-таки способности к подавлениям импульсивных поведенческих реакций отличаются. Давайте в данном случае оценим доверительный интервал разности, однако будем помнить, что мы работаем со связанными выборками, поэтому будем использовать соответствующую функциональность, и увидим, что весь доверительный интервал находится правее нуля, а значит, что применение препарата все-таки способствует росту способности подавления импульсивных поведенческих реакций. Видим, что разность в среднем изменяется от 2 до 8. На этом мы с вами заканчиваем, мы научились применять одновыборочный критерий Стьюдента, а также двухвыборочный критерий в случае независимых и связанных выборок, а на следующем уроке мы поговорим о гипотезах о долях.