Привет! В этом видео мы научимся строить доверительный интервал для двух долей, вернее, для разности двух долей. Давайте рассмотрим следующую задачу. Предположим, что у нас есть некоторый товар или услуга, которую мы хотим рекламировать. При этом у нас уже есть некоторый рекламный баннер, который мы используем для этих целей. Предположим также, что наши дизайнеры нарисовали для нас новый баннер, более красивый и с котиками, и нам с вами хочется проверить, какой же из них лучше, какой же из них больше нравится людям. Для этой задачи мы можем поступить следующим образом: прежде чем везде показыать новый баннер, давайте сделаем какую-нибудь простенькую веб-формочку и загрузим туда два наших баннера. Попросим некоторое количество людей, например, 1000 человек, посмотреть на них и нажать на кнопку «лайк», если баннер им понравился. Таким образом мы соберем статистику по «лайкам» на каждый из этих двух баннеров и сравним. Тот баннер, который окажется значимо лучше, и будем показывать. Вот давайте проведем следующие измерения. Загрузим такие данные, давайте посмотрим, как они выглядят. Ну, мы видим, что данные достаточно простые. У нас всего два столбца, каждый столбец соответствует кликам или не-кликам по одному из баннеров, и соответственно, 0 означает, что человеку баннер не понравился и он не стал нажимать на кнопку «лайк», 1 означает обратное — баннер понравился. Ну давайте с помощью метода describe посмотрим на статистику по кликам. Видим, что количество наблюдений у нас одинаково: и в том, и в другом случае мы показали баннер 1000 человек. Мы видим, что по баннеру A — это более старый баннер — кликов несколько меньше. Ну вот мы видим, что доля меньше. Соответственно, минимальное и максимальное значения — 0 и 1, потому что у нас с вами всего два значения присутствует, ну и различные перцентили нам не очень интересны. Давайте для начала интервально оценим баннеры. Мы видим, что доля кликов (или доля успехов) у нас относительно небольшая, поэтому для того, чтобы построить интервальную оценку доли, нам подойдет метод Уилсона. Из предыдущих лекции вы помните, что он хорошо работает в случае крайних значений на вероятность. Итак, давайте построим доверительные интервалы, делаем мы это с помощью метода proportion_confint из библиотеки StatsModels, и сразу же выведем их на экран. Видим, что мы получили интервалы. Интервалы достаточно узкие, но тем не менее они пересекаются. Это не очень удобно, потому что если бы один интервал лежал, например, полностью левее, чем другой, тогда нам было бы легко понять, что один баннер действительно лучше. А сейчас они пересекаются и не очень понятно, как их сравнить. Для того, чтобы их сравнить, давайте поступим следующим образом: давайте построим доверительный интервал на разность двух долей. Для того, чтобы это сделать, нам нужно сначала построить следующую табличку: давайте выпишем статистику по кликам на первый баннер и на второй, соответственно, посчитаем, сколько у нас было кликов — сколько было 1 в выборке, и сколько было не-кликов, или сколько было 0. На основе этого давайте рассчитаем статистики p1 и p2 и по формуле ниже оценим интервально разность долей. Давайте эту формулу реализуем, она достаточно простая. Смотрите, на реализации здесь всё просто. Сначала мы с вами честно рассчитываем все те слагаемые, которые входят в формулу, а дальше просто по формуле выписываем левую и правую границы интервала. Вот давайте это запустим и выведем на экран получившийся интервал. Ну, что можно сказать? Мы видим, что относительно 0 наш интервал более сильно сдвинут влево, большая часть его лежит все-таки в отрицательной плоскости, но тем не менее 0 внутри и не очень понятно, действительно ли старый баннер хуже, чем новый. Давайте рассмотрим следующую ситуацию. Предположим, что мы показывали баннер одним и тем же людям, то есть одни и те же люди оценивали как баннер A, старый баннер, так и баннер B. В этом случае мы с вами можем сказать, что речь идет уже о связанных выборках, они уже не являются независимыми. В этом случае мы можем использовать другую оценку разности долей. Для того, чтобы такую оценку получить, сначала нам нужно выписать таблицу сопряженности. Это очень простая таблица, у которой по строкам и по столбцам написаны значения наших случайных величин, в данном случае это 1 и 0, и в ячейках написано количество наблюдений, соответствующих данным значениям величин. Для того, чтобы получить доверительный интервал, нам с вами нужно по формулам рассчитать p1 и p2, дальше рассчитать их разность и подставить всё это для того, чтобы получить левую и правую границу. Давайте эту функцию реализуем, здесь всё довольно просто и также похоже на предыдущий случай. Сначала мы с вами оцениваем z, дальше оцениваем f и g и подставляем их в формулу для получения интервалов. Итак, давайте эту функцию построим и оценим интервал. Отлично, смотрите: здесь мы видим, что весь наш интервал лежит полностью левее нуля. Из этого можно сделать вывод, что действительно наш новый баннер лучше, чем старый, и выбрать нужно именно его. На этом мы с вами заканчиваем. Мы научились строить доверительный интервал на разность двух долей, а в следующем видео вы познакомитесь с новой технологией для оценки доверительных интервалов. Технология называется bootstrap.