Алгоритм сегментации временного ряда, имеющего мультимодальное распределение

Researcher

23.02.2026

В работе был предложен алгоритм сегментации числовых временных рядов, элементы которых имеют многомодальное распределение. Сегментация в данном случае означает отнесение каждого элемента ряда к классу с унимодальным распределением. Такая постановка задачи близка к задаче классификации элементов ряда по заданному признаку. В настоящее время предлагается использовать критерий нормальности для оценки полученных распределений, но в будущих работах планируется предложить модификации, которые могли бы работать и со смесью распределений, отличных от нормального. Было проведено сравнение предлагаемого алгоритма с методами, решающими схожие задачи: метод порога из теории распознавания изображений; алгоритм Дженкса, являющийся одномерным аналогом метода k-средних; и модель гауссовой смеси.

В рамках этапа работы были проведены исследования по эффективности предложенного алгоритма на синтетических и реальных данных. Например, на рисунках 1-3 приведено сравнение действия по разделению на классы синтетически сгенерированных бимодальных рядов (с известной классификацией) с помощью порогового метода и предложенного алгоритма.

Рис. 1. Результат применения порогового алгоритма сегментации временных рядов (слева) и предложенного алгоритма (справа) к синтетически сгенерированным временным рядам с хорошо разделяемыми модами.

Рис. 2. Результат применения порогового алгоритма сегментации временных рядов (слева) и предложенного алгоритма (справа) к синтетически сгенерированным временным рядам с близко расположенными модами.

Рис. 3. Результат применения порогового алгоритма сегментации временных рядов (слева) и предложенного алгоритма (справа) к синтетически сгенерированным временным рядам с нечеткой модальностью.

В таблице 1 показаны ошибки классификации для сравниваемых алгоритмов на синтетических данных, представленных на рисунках 1-3. Здесь под ошибкой понимается процент элементов выборки, которые классифицированы неверно.

Таблица 1 — Доля элементов выборки, отнесенных к неправильному классу (процент, %) для синтетических данных, представленных на рисунках 1-3

Алгоритм	Бимодальная выборка с
Алгоритм	хорошо разделимыми модами (рис. 1)	близко расположенными модами (рис. 2)	нечеткой модальностью (рис. 3)
Пороговый алгоритм	2.53	8.25	15.73
Алгоритм Дженкса	2.50	12.58	15.78
Модель гауссовой смеси	2.60	9.45	15.65
Предложенный алгоритм	0.00	0.60	0.23

Как видно из таблицы 1, алгоритм даёт на порядки меньшую ошибку сегментации по сравнению с конкурентными методами. Это происходит по следующей причине. Общим для существующих алгоритмов, решающих схожую задачу, является то, что они классифицируют исходные данные по D-классам, не используя возможную связность нескольких соседних элементов (свойство, важное для временных рядов). Это приводит к тому, что классификация для таких методов основана на нахождении D-1 значения между минимумом и максимумом выборки всех элементов исходного ряда. Именно по этим значениям элементы ряда разбиваются на классы. Авторский алгоритм предлагает сравнивать не отдельные элементы временного ряда, а некоторый отрезок, удовлетворяющий вводимому нами в рассмотрение условию однородности сегмента

X_i^j=\{x_i,x_{i+1},...,x_j \},i < j \ \ временного \ \ ряда \ \ X=\{x_1,x_2,...,x_n \} \ \\ \ |max⁡X_i^j -min⁡X_i^j |≤T,\ \ где\ \ T- гиперпараметр \ \ метода.

Узким местом предлагаемого алгоритма является оптимальный выбор порогового значения , определяющего однородность подпоследовательности. Здесь в качестве критерия предлагается минимум максимумов значения статистики Харке-Бера, полученных для классов при переборе допустимых значений . Однако, распределение элементов реального временного ряда редко представляет собой смесь нормальных распределений. В этом случае соответствие между минимумом статистики Харке-Бера и ошибкой сегментации остаётся открытой проблемой. Тем не менее, для реализации предлагаемого алгоритма сегментации временных рядов условие выбора значения является переменным и может быть легко заменено на более подходящее для конкретной ситуации. Более подробное описание метода и сравнение его на других наборах данных приведено в статье.

Публикация: Petrakova V., Karepova E. Agorithm for segmentation of multimodally distributed time series in accordance with their modes // Journal of Computational Science, 2026. Vol. 94. P. 102765