Здравствуйте! Сегодня мы начинаем говорить с вами про кластерный анализ. В рамках предыдущих лекций мы много говорили про задачи связанные со сравнением различных параметров между выборками. У нас было две или более групп наблюдений, для которых мы сравнивали среднее значение, дисперсии, формы распределения. Вот это разбиение объектов на группы было нам заранее известно. И сейчас мы переходим к обратной задачи, когда у нас есть некоторая общая выборка наблюдений, в которые мы предполагаем наличие некоторой внутренней структуры. И как раз таки с помощью методов кластерного анализа мы пытаемся выделить группы схожих объектов внутри нашей общей выборки. Ну раз мы говорим про выделение схожих объектов, то прежде всего мы предполагаем, что объекты находящиеся в одной группе должны обладать схожими характеристиками. Ну и поэтому мы должны вести некоторую меру сходства для объектов. Мера сходства должна основываться на каких-то признаках, которыми каждый объект описывается, соответственно, мы можем сказать, что наши данные выглядят следующим образом. У нас есть некоторая выборка из какого-то количества объектов и каждый объект описывается определенным набором признаков, на основании которых мы будем выделять наши группы - наши кластера. Здесь следует сказать, что очень часто на практике пытаются использовать все имеющиеся в наличии данные для выделения групп в надежде на то, что как только мы добавим достаточное количество данных в методы кластерного анализа, структуры у нас проявится сама собой. На самом деле такой подход скорее плох, чем хорош, потому что добавляя как можно больше признаков для описания объектов, мы только запутываем методы кластерного анализа и в принципе мы можем не получить четкого разбиения даже на тех данных, где в принципе группа у нас достаточно явная. Ну и как раз таки проблемой подбора признаков для кластерного анализа является умение выделить те признаки объектов, которые наилучшим образом позволят нам разделить объекты на группы, которые скажут нам, что схожие объекты действительно схожи и разделить их действительно объекты из различных групп действительно не похожие объекты. Но в целом, про методы кластерного анализа стоит сделать несколько оговорок. Прежде всего стоит помнить, что методы кластерного анализа - это прежде всего эмпирические методы, которые не несут под собой какое-то надежной статистической базы. Об этом следует помнить и относиться к ним прежде всего как к эвристике. Второй момент состоит в том, что различные методы кластерного анализа были спроектированы для различных научных дисциплин и какие-то методы, которые в них используются, они несут на себе отпечаток специфики этих научных дисциплин. Поэтому, какие-то вещи, которые применимы, например, в биологии или в социологии могут быть совершенно не применимы в эконометрике, либо где то еще. Ну и мы будем подробнее про это говорить, например, когда будем говорить про различные меры сходства, которые используются в кластерном анализе, но про это мы поговорим позднее. Также следует помнить, что так как методы кластерного анализа, это прежде всего эмпирические методы, то различные методы могут давать нам различные результаты на одних и тех же данных. То есть, например, если мы возьмем два метода кластерного анализа и для одной и той же выборки постараемся выделить кластеры, то в принципе это нормальная ситуация, что мы можем получить совершенно различные результаты. Про это следует помнить и в связи с этим необходимо оценивать качество полученных результатов, то есть оценивать качество полученных кластеров и уметь сравнивать применение различных методов кластерного анализа между собой. Но про это мы тоже поговорим позднее. Ну и также следует сказать, что применяя методы кластерного анализа мы пытаемся выявить некоторую структуру в данных, которая нам явным образом не видна. Но на самом деле здесь могут быть различные ситуации. Например, эта структура может действительно присутствовать в данных, но метод кластерного анализа будет ее несколько искажать. Например, наряду с какими-то реально существующими группами в данных у нас будут выделены несуществующие группы. Ну и на самом деле мы также можем столкнуться с ситуацией, когда мы пытаемся выделить какую-то структуру в данных и на самом деле этой внутренней структуры в данных в общем-то не существует. Здесь особенностью применения методов кластерного анализа является умение балансировать как раз таки на грани между реальной структурой и структурой навязанной тем или иным методом кластерного анализа. Например, это можно делать основываясь на количестве объектов, которые попали в тот или иной кластер, либо также на мерах качества полученных кластеров. Ну и о чем же мы будем говорить далее в рамках следующих лекций? Для начала мы рассмотрим различные меры сходства. Меры сходства обычно делятся на четыре большие группы. Это меры расстояния, и здесь мы для начала поговорим о том, что же вообще является расстоянием. Вторая группа, это так называемые корреляционные меры сходства. А затем мы поговорим про меры сходства ассоциативности, которые используются для бинарных данных. И также поговорим про вероятностные меры. После того, как мы рассмотрим различные меры сходства мы поговорим с вами про иерархический кластерный анализ, который является достаточно простым и интуитивно понятным методом кластерного анализа и так же легко интерпретируется. После этого мы поговорим про то, как выбирать оптимальное количество кластеров, которые мы получаем по иерархическому кластерному анализу и затем перейдем к рассмотрению итерационных методов кластерного анализа, таких как метод k-средних и FOREL. И затем мы поговорим о том, как же мы можем оценить качество полученных кластеров и как мы можем сравнить между собой результаты полученные с помощью двух различных методов кластерного анализа. Ну и в следующий раз мы как раз таки начнем рассматривать различные меры сходства.