[МУЗЫКА] [МУЗЫКА]
[ШУМ] Здравствуйте!
Мы очень радует, что вы заинтересовались нашей специализацией, и в этой лекции я
вам коротко расскажу о том, что вас ждет, если вы решите с нами поучиться.
Специализация посвящена статистическому анализу данных и состоит из четырех
курсов, каждый из которых, с одной стороны, завершенная вещь,
то есть он рассматривает определенный класс задач и завершается проектом,
где вы сможете своими руками что-то поделать на реальных данных и
закрепить полученные в курсе знания.
С другой стороны, все-таки расположены немножко по уровню сложности.
Если первый курс — самый базовый, то второй,
третий и четвертый как бы немножечко посложнее.
Давайте я коротко расскажу вам про каждый из курсов, что будет, собственно, внутри.
Первый курс будет полезен тем из вас, чей опыт работы с данными, может быть,
не очень большой или если вы неуверенно чувствуете себя в основах и хотели бы их
закрепить.
Здесь мы говорим о теории вероятности, об основах,
о случайных величинах и признаках, о характеристиках распределений.
Дальше мы говорим об основах математической статистики и говорим
о мерах центра и вариативности.
И, конечно же, говорим о том,
как визуализировать распределения и немножечко о графическом анализе данных.
В завершение мы поговорим еще и о выборках: о том,
как грамотно строить выборки, о том, как гарантировать корректную процедуру отбора,
какие возможности и ограничения следуют из разных логик отбора и, конечно же, о том,
как работать с неопределенным,
нетипичными или отсутствующими данными — так тоже бывает.
Если первый курс — описательный, то второй — здесь мы уже переходим к статистике.
Здесь мы начинаем с проверки статистических гипотез, что такое
гипотеза, как их проверять, какие бывают критерии, какая логика, какие принципы.
И затем вот эту вот теорию начинаем разворачивать на рассмотрение конкретных
инструментов, как исследовать взаимосвязи линейные-нелинейные.
И в завершение посмотрим на то, как можно не только исследовать взаимосвязи,
но и прогнозировать значение одного признака, зная значение других.
То есть мы поговорим о корреляциях, таблицах сопряженности,
линейных регрессиях.
И если вам интересно узнать, например, связаны ли счастье и богатство,
или связана ли активность пользователя с днем недели или с временем года,
или вы хотите узнать, способствует ли наличие страницы в социальных сетях
популярности корпоративного сайта,
то вот за такого рода вопросами — вам во второй курс, приходите, пожалуйста.
Третий курс касается сравнения и формирования групп.
И здесь у нас есть тоже как бы две содержательных части.
В первой части мы говорим о сравнении групп или категорий,
мы говорим о критериях параметрических и непараметрических,
о возможностях и ограничениях.
И если вас интересуют вроде вопросы, по разному ли ищут работу в городе
или различаются ли регионы или целевые группы по доходу,
возрасту или социально-демографическому составу, то вам сюда.
Здесь мы подробнее поговорим о классах задач и о способах их решения.
Вторая половина третьего курса посвящена уже формированию групп.
Если в первом случае мы знаем, что группы существуют и сравниваем их характеристики,
то во втором случае мы говорим о том, что, возможно, есть какая-то структура в наших
данных, о которой мы не уверены, но мы подозреваем, что она есть.
И мы пытаемся выявить эти группы, допустим, людей, или университетов,
или компаний, или еще чего-то,
или рубрик по сходных характеристиках, которыми эти объекты обладают.
И мы поговорим об основных алгоритмах кластеризации, посмотрим, как строить
кластеры, как их описывать и как понимать, что же за группы, собственно, получились.
И четвертый курс, он такой условно самый сложный.
И здесь мы поговорим об анализе трендов и о применении классификаторов.
Тренды — это про что?
Тренды — это, в общем-то, слово популярное, и здесь мы рассматриваем,
допустим, такие вопросы, как растут ли наши продажи, или стабилен ли приток
клиентов, тенденция ли это или случайность, есть ли какие-то сезонные
закономерности в том, как развивается показатель, который нас интересует,
как выявить эти тренды, как описать и как понять, что за ними стоит.
Также в этом курсе мы поговорим о факторном анализе, который позволяет
узнать, есть ли какие-нибудь скрытые переменные за проявлением каких-то вот
мелких видимых характеристик, понять, как найти эти переменные, понять, как описать,
что за ними стоит, и как интерпретировать то, что, собственно, получается.
И завершение поговорим о классификаторах.
Классификаторы позволяют нам отнести объект к той или иной категории с заданной
вероятность, исходя из нашего знания о некоторых характеристиках этого объекта.
Например, отдаст заемщик кредит или нет, закончит студент курс или нет,
сработает лекарство или нет и вот такие вот прочите задачи — мы
поговорим об основных методах, о простых классификаторах.
К примеру, мы рассмотрим деревья решений,
как они устроены и как они помогают в принятии решений.
Мы поговорим о простых бинарных классификаторах,
о логистической регрессии и на данных построим модель,
которая позволит нам классифицировать и прогнозировать.
Также, что важно: в конце каждого у нас будут не только теоретические,
но и практические лекции,
и вам будут предложены видео, в которых будет показано, как на практике решать то,
что мы рассматриваем в двух продуктах: при помощи SPSS и при помощи R.
Насколько мне известно, во многих университетах, по крайней мере социологам,
анализ данных преподают с применением SPSS — в МГУ это по крайней мере так.
Если в вашей организации есть этот пакет или если вы хотите им овладеть,
то вы сможете пойти по SPSS-ному треку и попробовать посмотреть эти
практические видео.
SPSS — это, к сожалению, платный продукт, ну как к сожалению?
Реальность такова.
Но есть бесплатная версия, 14-дневная, которую вы можете,
зарегистрировавшись на сайте, скачать — в материалах курса есть инструкция,
как это делать — и попрактиковаться.
Но, поскольку срок жизни бесплатной версии достаточно короткий, лучше устанавливать
ее поближе к тому моменту, когда вы решите делать практические задания.
Ну и R — второй продукт, второй инструмент, это, наверное,
самый или по крайней мере один из самых распространенных способов анализа сейчас,
и он бесплатный.
И при помощи R вы можете анализировать данные в любом месте практически без
дополнительных финансовых затрат.
Правда, он потребует от вас некоторой дополнительной подготовки,
материалы для которой мы, разумеется, предоставим.
Для R есть большое количество сред, R-Studio, к примеру,
ставится или еще что-то.
Мы будем показывать практику на Jupiter-notebooks,
и также вы сможете практиковаться, прямо не выходя из курса, прямо в среде курса
решать какие-то задачки, который мы будем разбирать на лекциях.
Итак, Вот такая наша специализация.
Добро пожаловать!
Еще раз спасибо большое за интерес к нашей специализации, и мы уже с нетерпением ждем
возможности поработать с вами и пообщаться с вами на форуме.