0:00
[МУЗЫКА]
[МУЗЫКА] Для
ответа на этот вопрос нам придется сделать
экскурс в другую науку и другую эпоху.
Итак, конец XIX века.
Английский статистик Фрэнсис Гальтон проводит статистическое исследование,
пытаясь установить закономерность между
ростом детей и ростом родителей,
ростом взрослых детей и усредненным ростом их родителей.
Для этого делается выборка: 205 семей,
898 детей.
И рост,
экспериментальные данные,
пара чисел x-y изображается точками на плоскости.
Получается облако из 898 точек,
и это облако очень напоминает эллипс.
Эта диаграмма вся называется диаграммой рассеяния,
а вот этот гипотетический эллипс, который, предположительно,
хорошо описывает это облако, тоже называется эллипсом рассеяния.
Так вот, достаточно часто оказывается, что экспериментальные данные,
описываемые многими параметрами, имеют обыкновение собираться в облака,
диаграммы рассеяния, вот такого эллипсовидного типа.
Этих облаков — кластеров — может быть несколько.
Но мы пока что ограничимся случаем именно одного кластера,
то есть предположим, что концентрация точек падает
по мере того как мы удаляемся от центра этой концентрации.
Так вот, оказывается, в этом случае сингулярное
разложение матрицы эквивалентно другому понятию,
которое известно под названием «метод главных компонент».
Возвращаясь к эксперименту Гальтона: центром кластера,
очевидно, является точка, барицентр, центр тяжести,
или, на языке статистики, точка с координатами x с чертой,
y с чертой, математическое ожидание по x и по y.
То есть наш гипотетический эллипс имеет центром, скорее всего, эту точку.
Перенесем начало координат в эту точку, в этот центр,
то есть математически центрируем наши данные.
Как расположены главные оси эллипса?
Ответ на этот вопрос был
сначала экспериментально получен Гальтоном,
а потом математически обоснован его учеником,
Карлом Пирсоном посредством решения вспомогательной задачи.
На плоскости заданы точки своими координатами,
требуется провести прямую,
сумма квадратов расстояний от которой до этих точек будет минимально возможной.
Итак, еще раз: сумма квадратов расстояний.
То есть в этой постановке задача не эквивалентна той,
которая решается так называемым методом наименьших квадратов.
Так вот, решая эту задачу чисто математическую, Гальтон выписывает,
выписывает некоторую вспомогательную матрицу,
которая равна произведению нашей матрицы фактически
центрированных экспериментальных данных на себя, только транспонированному,
ну и с некоторым добавочным коэффициентом, числовым коэффициентом.
И вот это произведение называется ковариационной матрицей.
Это понятие у вас было дано в одной из первых частей нашего модуля.
Возвращаясь к одной из предыдущих презентаций,
к одному из предыдущих слайдов, вспомните, вдоль какого
направления эллипс шире всего?
Так вот, оказывается, вдоль направления собственных векторов.
Итак, главные оси эллипса рассеяния совпадают
с собственными векторами матрицы S, а длины этих осей
оказываются пропорциональны корням квадратным из собственных чисел матрицы S.
Теперь зададимся еще одним вопросом.
А что, если у нас одно из собственных чисел этого эллипса
существенно меньше другого?
Например, λ2 много меньше λ1.
В этом случае эллипс оказывается сплюснутым к своей большой оси.
То есть фактически можно сформулировать одну гипотезу,
что на самом деле наши экспериментальные данные
подчиняются некоторому линейному закону,
то есть на самом деле концентрируются вокруг некоторой прямой.
Разброс вокруг этой прямой связан только с ошибками измерений.
Так вот, получается, что в этом случае вместо
эллипса нам достаточно рассмотреть его проекцию,
то есть отрезок, на его главную большую ось.
Если теперь мы перейдем к аналогичной проблеме в n-мерном пространстве,
в Rn, то мы получаем, что для симметричной матрицы
ковариационной S можно выписать ее представление в виде суммы
симметричных матриц ранга единица с коэффициентами,
равными собственным числам этой матрицы.
Как раз они и называются, вот эти матрицы, главными компонентами.
И тогда если у нас дополнительно имеется гипотеза,
или предположение, или экспериментальные данные, о том,
что все собственные числа можно разбить на две подгруппы:
большие и малые, то мы можем предположить, что вот этими малыми можно пренебречь.
То есть в разложении по методу главных компонент оставить только старшие
компоненты и отбросить все оставшиеся.
Геометрически что это получается?
Это получается, что наш эллипсоид рассеяния в n-мерном пространстве,
вместо него мы начинаем рассматривать его проекцию на некоторую гиперплоскость.
На какую конкретно?
Которая является максимально возможной,
то есть на гиперплоскость, определяемую собственными векторами матрицы S,
соответствующими наибольшим собственным числам.
[БЕЗ_ЗВУКА]