Методы машинного обучения — будь то алгоритмы классификации или регрессии, методы кластеризации или алгоритмы понижения размерности — применяются к подготовленным данным с вычисленными признаками для решения уже сформулированной задачи. Однако специалисты по анализу данных редко оказываются в такой идеальной ситуации. Обычно перед ними ставят задачи, которые нуждаются в уточнении формулировки, выборе метрики качества и протокола тестирования итоговой модели. Данные, с которыми нужно работать, часто представлены в непригодном виде: они зашумлены, содержат ошибки и выбросы, хранятся в неудобном формате и т. д.
В этом курсе мы разберем прикладные задачи из различных областей анализа данных: анализ текста и информационный поиск, коллаборативная фильтрация и рекомендательные системы, бизнес-аналитика, прогнозирование временных рядов. На их примере вы узнаете, как извлекать признаки из разнородных данных, какие при этом возникают проблемы и как их решать. Вы научитесь сводить задачу заказчика к формальной постановке задачи машинного обучения и поймёте, как проверять качество построенной модели на исторических данных и в онлайн-эксперименте. На каждой задаче мы изучим плюсы и минусы пройденных алгоритмов машинного обучения.
Прослушав этот курс, вы познакомитесь с распространенными типами прикладных задач и будете понимать схемы их решения.
À partir de la leçon
Бизнес-задачи
На этой неделе мы разберём две крупные задачи, часто возникающие в бизнес-аналитике. Первая связана с прогнозированием временных рядов; задачи такого типа часто возникают, когда необходимо оценить значение показателя в будущем, основываясь на истории его изменения в прошлом. Такими показателями могут быть спрос на товар, аудитория рекламного баннера, цена акций и т.д. Вторя задача — это анализ поведения пользователей. Класс задач, связанных с анализом пользовательских данных, неизбежно появляется практически в любой сфере бизнеса, подразумевающей работу с клиентами. Как правило, это такие задачи, как привлечение пользователей, работа с аудиторией, прогнозирование оттока и удержание клиентов.