logo

ASM

  • Главная
  • Материалы
    • Карты
    • Корреляционный анализ показателей
    • Описательная статистика данных
    • Диаграммы рассеяния
    • Формулы для корректировки
    • Регрессионный анализ
    • Учет логнормальности распределения
    • Оценка влияния метеорологического сезона на калибровку показаний PM2.5, полученных c оптических датчиков
    • Набор данных
    • Дисперсия показателей
  • Регрессионный анализ

    Researcher

    26.02.2023
    Анализ показателей
    Регрессионный анализ

    Раздел содержит результаты регрессионного анализа для выявления зависимости значений концентрации взвешенных частиц PM2.5, полученных с помощью оптического датчика станции CityAir, от эталонных значений концентраций PM2.5, полученных от анализатора E-BAM, с учетом значений метеорологических параметров.

    Имеющиеся данные были разбиты на обучающую (80% объема) и тестовую (20% объема) выборки. Для построения регрессионных моделей были использованы методы машинного обучения без учителя: линейная регрессия, регрессия Лассо, регрессия эластичной сети, регрессия опорных векторов, регрессия дерева решений, регрессия случайного леса. Качество модели оценивалось коэффициентом детерминации R2, который показывает, какую долю дисперсии тестовой выборки концентраций PM2.5 объясняет модель. Поскольку значение коэффициента детерминации зависит от разбиения данных на обучающую и тестовую выборки, то процедура повторялась для 100 случайных разбиений. Далее в таблицах приведен средний коэффициент детерминации по всем попыткам, при этом среднеквадратичное отклонение не превышает процента.

    В регрессионном анализе рассматривались различные комбинации следующих факторов: концентрации PM2.5, полученные анализатором E-BAM (PMm); температура (ts), давление (ps) и влажность (hs), полученные с помощью датчиков станции CityAir. В качестве отклика рассматривались значения концентрации PM2.5, полученные с оптического датчика CityAir (PMs).

    Ниже приведены коэффициенты детерминации R2 регрессионных моделей, обученных на полном объеме данных обучающей выборки для дублирующей пары постов.

    Результаты для пары постов, расположенных в Ветлужанке

    МодельPMmPMm, tsPMm, ts, hsPMm, ts, psPMm, ts, ps, hs
    Линейная регрессия (МНК)0.8440.8560.8570.8580.859
    Регрессия случайного леса0.8480.8640.8830.8930.902
    Регрессия k-ближайших соседей0.8300.8700.8820.8830.889
    Регрессия опорных векторов0.8310.8500.8530.7600.748
    Регрессия Лассо0.8440.8560.8560.8580.859
    Регрессия эластичной сети0.8440.8560.8560.8580.859
    Регрессия дерева решений0.8470.7890.8030.8150.825

    Множественная линейная регрессия, учитывающая максимальное количество факторов, для парных датчиков поста Ветлужанка имеет следующий вид:

    \begin{align*}
    P{{M}_{s}}={{a}_{0}}+{{a}_{1}}\cdot P{{M}_{m}}+{{a}_{2}}\cdot {{t}_{s}}+{{a}_{3}}\cdot {{p}_{s}}+{{a}_{4}}\cdot {{h}_{s}}=  \\ 
    =88.068+2.100p{{m}_{m}}-0.781{{t}_{s}}-0.127{{p}_{s}}+0.054{{h}_{s}}  
    \end{align*}
    

    где коэффициенты определены со следующими доверительными интервалами:

    \begin{gather*}
    a_0 \in [86.584;89.209]; a_1 \in [2.097;2.103]; a_2 \in [-0.785;-0.777];\\a_3 \in [-0.129;-0.125]; a_4 \in [0.054;0.056]
    \end{gather*}
    

    Значения коэффициента детерминации R2, рассчитанного для некоторых групп значений концентрации PM2.5 датчика, расположенного в Ветлужанке тестовой выборки для линейной регрессии (MНК), построенной на всём объеме данных обучающей выборки

    ДанныеPMmPMm, tsPMm, ts, hsPMm, ts, psPMm, ts, ps, hs
    Усредненные за сутки0.9390.9440.9520.9540.953
    Усредненные за 6 часов0.9360.9410.9470.9470.947
    Усредненные за час0.8950.9010.9070.9070.907
    Не превышающие ПДК0.3240.3040.3570.3560.357
    Превышающие ПДК0.7390.7700.7640.7710.771
    Октябрь-Март0.8620.8630.8660.8670.868
    Июнь-Август0.2200.3140.3380.3670.363
    Апрель, Май, Сентябрь0.5820.6000.6030.6030.602

    Результаты для пары датчиков, расположенных в Свердловском районе

    Коэффициент детерминации R2 регрессионных моделей, обученных на полном объеме данных обучающей выборки для дублирующей пары постов, расположенной в Свердловском районе

    МодельPMmPMm, tsPMm, ts, hsPMm, ts, psPMm, ts, ps, hs
    Линейная регрессия (МНК)0.8600.8660.8680.8670.869
    Регрессия случайного леса0.8640.8620.8920.9030.913
    Регрессия k-ближайших соседей0.8450.8700.8820.8800.889  
    Регрессия опорных векторов0.8560.8550.867  0.7650.751
    Регрессия Лассо0.860  0.8660.8680.8670.868
    Регрессия эластичной сети0.8600.8660.8680.8670.868
    Регрессия дерева решений0.8620.7900.8090.8310.838

    Множественная линейная регрессия, учитывающая максимальное количество факторов, для парных датчиков поста «Свердловский» имеет следующий вид:

    \begin{align*}
    P{{M}_{s}}={{a}_{0}}+{{a}_{1}}\cdot P{{M}_{m}}+{{a}_{2}}\cdot {{t}_{s}}+{{a}_{3}}\cdot {{p}_{s}}+{{a}_{4}}\cdot {{h}_{s}}= \\
    =-97.603+2.075p{{m}_{m}}-0.239{{t}_{s}}+0.120{{p}_{s}}+0.089{{h}_{s}}
    
    \end{align*}
    

    где коэффициенты определены со следующими доверительными интервалами:

    \begin{gather*}
    {{a}_{0}}\in [-99.504;-94.518]; {{a}_{1}}\in [2.071;2.078]; {{a}_{2}}\in [-0.240;-0.237]; \\{{a}_{3}}\in [0.116;0.123]; {{a}_{4}}\in [0.089;0.090]
    \end{gather*}
    

    Значения коэффициента детерминации R2, рассчитанного для некоторых групп значений концентрации PM2.5 датчика, расположенного в Свердловском районе тестовой выборки для линейной регрессии (MНК), построенной на всём объеме данных обучающей выборки

    ДанныеPMmPMm, tsPMm, ts, hsPMm, ts, psPMm, ts, ps, hs
    Усредненные за сутки0.9600.9590.9640.9620.964
    Усредненные за 6 часов0.9340.9370.9400.9390.941
    Усредненные за час0.8830.8870.8900.8890.891
    Не превышающие ПДК0.5600.5510.5800.5710.580
    Превышающие ПДК0.6710.6940.6890.6890.690
    Октябрь-Март0.8450.8470.8500.8500.850
    Июнь-Август0.8650.8830.8840.8790.884
    Апрель, Май, Сентябрь0.6100.6190.6350.6280.635

    Результаты для пары датчиков, расположенных в Кировском районе

    Коэффициент детерминации R2 регрессионных моделей, обученных на полном объеме данных обучающей выборки для дублирующей пары постов, расположенной в Кировском районе

    МодельPMmPMm, tsPMm, ts, hsPMm, ts, psPMm, ts, ps, hs
    Линейная регрессия (МНК)0.8800.8830.8840.8830.884
    Регрессия случайного леса0.882  0.8800.906  0.9070.918
    Регрессия k-ближайших соседей0.8700.8850.8950.8900.901
    Регрессия опорных векторов0.8800.8830.8840.8830.884  
    Регрессия Лассо0.8800.8830.8840.8830.884
    Регрессия эластичной сети0.880  0.8830.8840.8830.884
    Регрессия дерева решений0.8800.8070.8280.8320.848

    Множественная линейная регрессия, учитывающая максимальное количество факторов, для парных датчиков поста «Кировский» имеет следующий вид:

    \begin{align*}
    P{{M}_{s}}={{a}_{0}}+{{a}_{1}}\cdot P{{M}_{m}}+{{a}_{2}}\cdot {{t}_{s}}+{{a}_{3}}\cdot {{p}_{s}}+{{a}_{4}}\cdot {{h}_{s}}= \\
    =-80.406+2.241p{{m}_{m}}-0.301{{t}_{s}}+0.093{{p}_{s}}+0.111{{h}_{s}}
    \end{align*}
    

    где коэффициенты определены со следующими доверительными интервалами:

    \begin{gather*}
    {{a}_{0}}\in [-84.451;-76.690]; {{a}_{1}}\in [2.238;2.245]; {{a}_{2}}\in [-0.304;-0.298];\\{{a}_{3}}\in [0.089;0.099]; {{a}_{4}}\in [0.110;0.112]
    \end{gather*}
    

    Значения коэффициента детерминации R2, рассчитанного для некоторых групп значений концентрации PM2.5 датчика, расположенного в Кировском районе тестовой выборки для линейной регрессии (MНК), построенной на всём объеме данных обучающей выборки

    ДанныеPMmPMm, tsPMm, ts, hsPMm, ts, psPMm, ts, ps, hs
    Усредненные за сутки0.9740.9720.9780.9770.978
    Усредненные за 6 часов0.9580.9580.9620.9600.962
    Усредненные за час0.8930.8940.8980.8970.898
    Не превышающие ПДК0.5560.5200.5680.5620.569
    Превышающие ПДК0.6720.6890.6880.6860.688
    Октябрь-Март0.8270.8280.8320.8310.832
    Июнь-Август0.7800.7960.8040.8010.804
    Апрель, Май, Сентябрь0.6460.6490.6640.6640.666

    Результаты для пары датчиков, расположенных в Покровском районе

    Коэффициент детерминации R2 регрессионных моделей, обученных на полном объеме данных обучающей выборки для дублирующей пары постов, расположенной в Покровском районе

    МодельPMmPMm, tsPMm, ts, hsPMm, ts, psPMm, ts, ps, hs
    Линейная регрессия (МНК)0.7910.8040.8050.8040.805
    Регрессия случайного леса0.7880.7820.8170.8360.852
    Регрессия k-ближайших соседей0.7650.7900.8100.8070.824
    Регрессия опорных векторов0.7910.8040.8050.8040.805
    Регрессия Лассо0.791  0.8040.8050.8040.805
    Регрессия эластичной сети0.7910.8040.8050.8040.805
    Регрессия дерева решений0.7850.6500.6910.6990.733

    Множественная линейная регрессия, учитывающая максимальное количество факторов, для парных датчиков поста «Покровский» имеет следующий вид:

    \begin{align*}
    P{{M}_{s}}={{a}_{0}}+{{a}_{1}}\cdot P{{M}_{m}}+{{a}_{2}}\cdot {{t}_{s}}+{{a}_{3}}\cdot {{p}_{s}}+{{a}_{4}}\cdot {{h}_{s}}= \\
    =8.273+2.054p{{m}_{m}}-0.613{{t}_{s}}-0.010{{p}_{s}}+0.050{{h}_{s}}
    \end{align*}
    

    где коэффициенты определены со следующими доверительными интервалами:

    \begin{gather*}
    {{a}_{0}}\in [7.885;8.708]; {{a}_{1}}\in [2.050;2.057]; {{a}_{2}}\in [-0.616;-0.610];\\{{a}_{3}}\in [-0.011;-0.010]; {{a}_{4}}\in [0.049;0.051]
    \end{gather*}
    

    Значения коэффициента детерминации R2, рассчитанного для некоторых групп значений концентрации PM2.5 датчика, расположенного в Покровском районе тестовой выборки для линейной регрессии (MНК), построенной на всём объеме данных обучающей выборки

    ДанныеPMmPMm, tsPMm, ts, hsPMm, ts, psPMm, ts, ps, hs
    Усредненные за сутки0.8900.9070.9110.9100.911
    Усредненные за 6 часов0.8730.8880.8920.8910.892
    Усредненные за час0.7800.7970.8000.8000.801
    Не превышающие ПДК0.4510.4910.5000.5000.500
    Превышающие ПДК0.4930.5240.5290.5270.529
    Октябрь-Март0.7220.7370.7390.7390.739
    Июнь-Август0.4660.5410.5480.5480.549
    Апрель, Май, Сентябрь0.5170.5290.5410.5420.541

    На основе результатов регрессионного анализа можно сделать следующие выводы.

    • Множественная линейная регрессия с помощью наименьших квадратов (MLS) даёт хорошее приближение, сравнимое по точности с более сложными и вычислительноемкими методами машинного обучения. При этом линейная регрессия позволяет в явном виде получать коэффициенты, отражающие зависимость значения отклика от значений факторов.
    • Для всех пар дублирующих датчиков лучшую точность предсказания отклика дают непараметрические методы случайный лес и k ближайших соседей’.
    • Добавление в анализ зависимости факторов влажности и давления не дает значительного улучшения точности моделей. Это можно объяснить двумя причинами: 1) всесезонность выборки гасит разнонаправленное влияние этих факторов в разные сезоны; 2) обсуждаемая ранее некорректность измерений влажности.
    Следующая запись
    Предыдущая запись

Информация

Выполнено научным коллективом ИВМ СО РАН при поддержке Российского научного фонда.

Проект #24-71-10022

Контакты

660036, Красноярск, Академгородок, 50/44, ИВМ СО РАН

Тел.: (391) 243–27–56, факс: (391) 290–74–76

  • Mail

Последние публикации

  • Дисперсия показателей
  • Оценка влияния метеорологического сезона на калибровку показаний PM2.5, полученных c оптических датчиков
  • Набор данных
  • Учет логнормальности распределения данных об уровнях концентрации PM2.5
  • Формулы для корректировки

Copyright © 2025 asm