[МУЗЫКА] [МУЗЫКА]
[ЗВУК] Здравствуйте.
Сегодня мы начинаем с вами новый [НЕРАЗБОРЧИВО модуль?],
посвященный анализу временных рядов.
И для начала давайте посмотрим, что же представляет собой временной ряд.
Временной ряд — это некоторые показатели,
некоторые данные, которые мы собираем с течением времени.
И обычно временной ряд выглядит как-то так.
Примеров временных рядов можно придумать множество.
Например, этот ряд представляет собой клики некоторой фирмы в день.
В чем состоит основное отличие временного ряда от выборки?
Если вы помните, когда мы говорили с вами про понятие выборки,
мы говорили о том, что в выборке у нас присутствуют случайные величины,
которые являются независимыми друг от друга.
Так вот, как раз когда мы говорим про временной ряд,
то вот эта зависимость друг от друга присутствует.
Так как мы собираем данные последовательно,
то мы должны учитывать то, что, во-первых, они зависят от времени,
когда они были собраны, и могут зависеть от предыдущих значений.
Собственно, в этом и состоит основная разница, и именно поэтому для
анализа прогнозирования временных рядов есть свои собственные методы.
И методы, которые мы используем для работы с обычными выборками,
как раз таки оказываются неприменимыми.
И давайте поговорим про задачи, которые у нас есть,
когда мы работаем с временными рядами.
Все задачи обычно делятся на два больших класса.
Это именно анализ временных рядов, когда мы пытаемся по имеющимся
у нас данным вытащить как можно больше информации.
И второй класс задач — это прогнозирование временных рядов,
когда мы по имеющимся у нас данным пытаемся
спрогнозировать значение временного ряда на какие-то будущие периоды.
Анализ временных рядов состоит из таких основных задач,
как выявления трендов данных, то есть определения, есть ли у нас какая-то
тенденция развития в нашем временном ряде; выявление сезонных компонент; определение,
есть ли в наших данных какие-то аномальные значения либо выбросы.
И также бывает полезно разложить временной ряд на составляющие,
например, как раз таки на тренд, на сезонность и на некоторую ошибку.
Про все эти вещи мы как раз и будем говорить в рамках этого курса.
Задачи прогнозирования временных рядов осуществляются с помощью различных
моделей.
Мы с вами рассмотрим несколько подходов.
Самый первый и простой — это простая авторегрессионная модель,
скользящее среднее, и их обобщение — это ARMA и ARIMA модели.
Также мы рассмотрим большой класс адаптивных моделей прогнозирования.
В рамках этого модуля мы будем говорить про анализ временных рядов и про то,
какую информацию мы можем извлечь из имеющихся у нас данных.
Какие вообще бывают ряды?
Для начала: ряды бывают стационарные и нестационарные.
Стационарный ряд подразумевает, что в данных у нас нет ярко выраженного тренда,
то есть мы можем сказать, что матожидание наших случайных величин,
которые мы собираем в виде ряда, равно некоторой константе.
А если же ряд не стационарный, то выглядит он при этом как-то так.
И мы можем сказать, что в наших данных есть какая-то тенденция к развитию.
Например, у нас может быть возрастающий тренд или, наоборот, убывающий тренд,
либо какие-то цикличные явления.
А также ряды могут содержать сезонные компоненты.
Сезонная компонента — это некоторое периодическое явление,
которое возникает в наших данных, например,
какие-то периодические подъемы или, наоборот, падения в данных.
К примеру, если мы говорим про ряд,
который представляет собой клики некоторой фирмы в день, то, допустим,
фирма эта является баром, и каждую пятницу у нее клики будут возрастать,
соответственно каждый понедельник, наоборот, падать.
То есть в данном случае мы можем сказать,
что такой ряд имеет ярко выраженную недельную сезонность.
Ну и не следует забывать, что ряды могут содержать как тренды, так и сезонности.
Кроме того, в таких рядах еще могут случаться какие-то аномальные выбросы,
и про все про это мы будем говорить в рамках следующих лекций.
Ну и также следует рассмотреть основные модели временных рядов.
Их всего две — это аддитивная и мультипликативная модель.
В аддитивной модели мы предполагаем,
что наш временной ряд выглядит следующим образом.
Если мы говорим про аддитивную модель, что мы имеем в виду?
На примере сезонности: если мы говорим,
что сезонность у нас входит в модель аддитивно, то это означает, что,
к примеру, каждую пятницу клики по фирмам бары возрастают на 20.
А если же мы говорим про мультипликативную модель,
которая выглядит следующим образом, то мы говорим о том,
что каждую пятницу клики по фирмам бары возрастают в два раза.
Мы видим, что графически аддитивная сезонность отличается от
мультипликативной, поэтому какую модель лучше использовать, зависит уже от данных.
Но мы в дальнейшем в рамках курса в основном будем рассматривать именно
аддитивные модели.
Ну и в следующий раз мы поговорим уже про выделение тренда из данных.