[ЗАСТАВКА] Привет! С вами Евгений. В этом уроке мы с вами поговорим о задаче регрессии, обсудим некоторые ее важные свойства, как она решается, почему она решается именно так и как интерпретировать то, что получается в результате. Если подумать, термин регрессия довольно странный. Кажется, что в нем есть что-то негативное. Впервые этот термин появился в конце XIX века в работе Френсиса Гальтона, которая называлась «Регрессия к середине в наследственности роста». В этой работе Френсис Гальтон исследовал зависимость между средним ростом детей и средним ростом их родителей и обнаружил, что отклонение роста детей от среднего составляет примерно две трети отклонения роста родителей от среднего. Этот результат контринтуитивен. Кажется, он означает, что с течением времени люди должны рождаться все ближе и ближе к среднему росту. На самом деле, естественно, этого не происходит. Чтобы лучше понять эффект регрессии к среднему, давайте посмотрим на другое творение Френсиса Гальтона, которое называется машина, или доска, Гальтона. Это механическая машина, в которой сверху в центральной части находятся шарики. Когда открывается заслонка, шарики начинают постепенно сыпаться вниз, ударяясь о штырьки, которые расположены на одинаковом расстоянии друг от друга. При каждом соударении шарика со штырьком вероятность того, что он упадет налево и направо от штырька, одинакова. Постепенно шарики начинают собираться в секциях внизу в до боли знакомую нам фигуру — в гауссиану, или плотность нормального распределения. Чтобы понять эффект регрессии к среднему, давайте мысленно подставим к машине Гальтона снизу еще одну такую же машину. Если теперь мы уберем перегородку, которая удерживает шарики в верхней половине, они начнут постепенно осыпаться вниз и сформируют внизу еще одну такую же гауссиану. Давайте теперь зафиксируем какой-то конкретный шарик, который в нижней половине находится в одной из ячеек близко к краю, и попытаемся понять, откуда сверху он мог в эту ячейку попасть. Оказывается, что с достаточно большой вероятностью этот шарик пришел не из ячейки, которая находится в верхней половине прямо над ячейкой, в которой он оказался внизу, а от ячейки ближе к середине. Это происходит просто потому, что в середине шариков больше. Эффект регрессии к среднему проявляется во многих практических задачах. Например, если вы дадите какой-то достаточно сложный тест группе студентов, то большую роль в том, насколько хорошо они его пройдут, будут играть не только их знания по предмету, но и то, насколько им повезло, то есть случайный фактор. Поэтому если вы изолируете, например, 10 % студентов, которые прошли тест лучше всех (набрали больше всего баллов) и дадите им еще одну версию этого теста и заставите их пройти его снова, средний балл в этой группе скорее всего упадет. Просто потому что люди, которым повезло в первый раз, скорее всего уже не будут так удачливы во второй. Это эффект регрессии к середине. Френсис Гальтон был достаточно плодовитым ученым. Он был основоположником дактилоскопии, исследовал явление синестезии, внес существенный вклад в метеорологию, впервые описав циклоны и антициклоны, а также, например, изобрел ультразвуковой свисток для собак. Но именно регрессия и по сей день остается одним из наиболее важнейших инструментов, к которому он приложил руку. Давайте начнем его изучение. Чаще всего под регрессией понимают минимизацию среднеквадратичной ошибки: квадратов отклонений откликов y от их предсказанных значений a(x). Поскольку минимизируется сумма квадратов отклонений, этот метод называется методом наименьших квадратов (сокращенно МНК). Для линейной регрессии, в которой мы приближаем отклик линейной комбинации наших факторов x с весами w, эта задача имеет аналитическое решение. Именно этим частично объясняется популярность среднеквадратичной ошибки. В XIX веке, когда эта задача впервые возникла, никакого способа ее решения, кроме аналитического, быть не могло. Сейчас мы можем минимизировать не только среднеквадратичную ошибку, но и, например, среднюю абсолютную, то есть сумму модулей отклонений нашей модели от отклика. Такая задача является частным случаем класса задач квантильной регрессии, о которых мы будем говорить подробно в следующих видео. Далее в этом уроке вас ждет знакомство с методом максимального правдоподобия, подробное изучение свойств регрессии, регуляризации, а также задача логистической регрессии. [ЗАСТАВКА]