Работа посвящена поиску эффективного алгоритма обнаружения выбросов в нестационарных одномерных временных рядах, представляющих собой натурные измерения. Так, нестационарность ряда характеризуется наличием изменчивого тренда в данных, а также гетероскедастичностью непостоянством дисперсии для отдельно взятых подпоследовательностей временного ряда. Неучет этих особенностей приводит к тому, что выбросы, связанные с поломками или неточностью аппаратуры, фиксирующей натурные измерения, могут быть классифицированы как регулярные значения. Это делает большинство существующих методов обнаружения выбросов во временных рядах неэффективными. В работе описаны реальные данные, представляющие собой наблюдения за температурой и концентрацией загрязнителя в пограничном слое атмосферы г. Красноярска, которые обладают заданными свойствами. Приведен краткий обзор существующих методов, показаны их преимущества и недостатки в применении к имеющимся данным. Предложен авторский подход к обнаружению выбросов в рядах описываемого типа. Представленный в работе метод направлен на коррекцию и объединение существующих подходов и разделен на два этапа: локализация точек, подозрительных на выброс, и регрессия по локализованному участку с адаптивным порогом отсечения точек. Представленный алгоритм протестирован на имеющихся данных. Проведено сравнение с существующими подходами.
Предлагаемый здесь подход направлен на устранение недостатков методов, основанных на построении регрессии и оценке расстояния до ближайших соседей. Методы, основанные на расчете расстояний к рядом лежащим точкам, позволяют учесть основное свойство ряда—связанность его значений между собой, а регрессионные—оценить отклонение значения от наблюдаемого в данных тренда. Предлагаемый метод заключается в том, чтобы сначала найти места скопления точек, подозрительных на выброс, а затем их обработать регрессионной моделью. Наличие предобработки позволит снизить вычислительную сложность регрессионного метода и устранить влияние гетероскедастичности, наблюдаемой в данных, на результат отнесения точки к выбросу. Математическое описание алгоритма приведено в статье.
На рисунке 1 представлено сравнение двух методов: регрессионного и предложенного на данных по температуре. В качестве модели регрессии использовался кубический полином, построенный по 12 точкам.






Рисунок 1: реализация поиска точек, подозрительных на выброс в измерениях температуры регрессионным методом (верхние 3) и предложенным алгоритмом (нижние 3)
Таким образом, предложенный алгоритм делает меньшее количество ложно положительных классификаций по сравнению регрессионным подходом. Это утверждение справедливо и для ряда других методов. Полный набор результатов для всего имеющегося набора данных по температуре и концентрации PM2.5 можно найти по ссылке:
