Данные — это нефть XXI века.
У интернет-магазинов есть огромное количество записей о совершенных
пользователем покупках и о предшествовавших им действиях.
У лечебных учреждений есть много данных о диагнозах,
которые поставили врачи, и об историях болезни.
У Яндекса есть петабайты данных о том, как люди ищут что-то в интернете.
Все эти данные могут приносить нам какую-то пользу.
Но как же ее извлечь?
Наука про извлечение закономерностей из данных так и называется — наука о данных
или data science.
Она пытается понять,
как можно из данных самой разной природы получить ответы на некоторые вопросы.
Разделы науки о данных, которые освещают разные методы получения таких ответов,
называются машинное обучение и анализ данных.
Одна из самых древних задач,
в которых применимы методы анализа данных — это задача прогнозирования.
Прогнозировать можно что угодно: продажи товаров в магазинах,
рейтинги телесериалов, пробки, погоду, землетрясения.
В древнем Вавилоне для построения прогнозов использовали информацию
о расположении червей в гнилой печени овцы.
В III веке до н.э Дельфийский оракул строил свои предсказания,
вдыхая галлюциногенные пары этилена.
Более современный подход заключается в использовании исторических данных.
Например, для магазинов мы, как правило,
знаем историю продаж всех товаров за все время существования магазина.
Наблюдения за погодой ведутся уже сотни лет.
Методы машинного обучения и анализа данных могут проанализировать такую историческую
информацию, найти в ней какие-то закономерности и на
основании этих закономерностей научиться предсказывать будущее.
Простейшие из таких методов в XX веке появились даже в пакетах офисных программ.
С тех пор модели и средства прогнозирования продолжали развиваться.
Современные методы позволяют находить существенно более сложные
закономерности и строить намного более точные прогнозы.
А вот еще одна задача: в популярных социальных сетях, например, в Twitter,
в день появляются сотни миллионов записей.
Люди пишут обо всем: о чем они думают, что происходит в их жизни, что их беспокоит.
Если у вашей компании есть клиенты, то наверняка вам интересно узнать,
что думают о вас эти клиенты, особенно если это мнение негативное.
Но вряд ли вы сможете нанять человека,
который сможет читать хотя бы миллион записей в день.
Даже если он сможет фильтровать записи, смотреть только те,
где упоминается ваша компания, их все равно будет слишком много.
А вот машинное обучение позволяет построить модель,
которая будет отделять негативные отзывы о вашей компании от всего остального.
Этой модели не нужно будет платить зарплату, и при этом вы сможете быстро
реагировать на любые негативные записи, которые пишут о вас в интернете.
Имея большое количество данных, можно попытаться понять их скрытую структуру.
Например, зная, какие товары нравятся пользователям,
можно попытаться понять их интересы и на этой основе предложить им что-то еще.
Приблизительно так и работает рекомендательная система.
Кстати, впервые они появились на сайтах интернет-магазинов около 20 лет назад,
а сейчас распространились даже в такие далекие от электронной коммерции области,
как банковское дело или сотовая связь.
Имея персональные рекомендации, можно не только порадовать пользователя,
но и принести пользу бизнесу.
Например, существенная часть покупок онлайн-магазина Amazon обеспечивается за
счет рекомендательных систем, работающих на основе методов машинного обучения.
Еще методы анализа данных могут позволить выявлять аномальные состояния системы.
Например, наблюдая за показаниями многочисленных датчиков в самолете,
можно заметить, что одна из деталей нуждается в ремонте.
В этом случае мы можем избежать аварии или снизить расход топлива.
Или, например, наблюдая за транзакциями по банковским картам,
можно заметить нетипичную транзакцию и приостановить действие карты.
Банк сможет позвонить клиенту и уточнить, все ли у него в порядке.
>> Данных с каждым годом становится все больше.
Поэтому растет спрос на специалистов по их анализу.
Так по данным профессиональной социальной сети LinkedIn умение анализировать данные
— навык, на который работодатели чаще всего обращали внимание при
поиске сотрудников в прошлом году.
Специалист по анализу данных должен уметь сформулировать задачу в терминах машинного
обучения, найти подходящие для ее решения данные, а также простроить прогнозную
модель, имеющую хорошее качество и способную приносить пользу бизнесу.
Анализ данных — наука, в которой работают хорошо обоснованные теоретические методы,
а также эвристики.
Но лишь их грамотное сочетание позволяет успешно решать практические задачи.
[МУЗЫКА]