Раздел содержит результаты регрессионного анализа для выявления зависимости значений концентрации взвешенных частиц PM2.5, полученных с помощью оптического датчика станции CityAir, от эталонных значений концентраций PM2.5, полученных от анализатора E-BAM, с учетом значений метеорологических параметров.
Имеющиеся данные были разбиты на обучающую (80% объема) и тестовую (20% объема) выборки. Для построения регрессионных моделей были использованы методы машинного обучения без учителя: линейная регрессия, регрессия Лассо, регрессия эластичной сети, регрессия опорных векторов, регрессия дерева решений, регрессия случайного леса. Качество модели оценивалось коэффициентом детерминации R2, который показывает, какую долю дисперсии тестовой выборки концентраций PM2.5 объясняет модель. Поскольку значение коэффициента детерминации зависит от разбиения данных на обучающую и тестовую выборки, то процедура повторялась для 100 случайных разбиений. Далее в таблицах приведен средний коэффициент детерминации по всем попыткам, при этом среднеквадратичное отклонение не превышает процента.
В регрессионном анализе рассматривались различные комбинации следующих факторов: концентрации PM2.5, полученные анализатором E-BAM (PMm); температура (ts), давление (ps) и влажность (hs), полученные с помощью датчиков станции CityAir. В качестве отклика рассматривались значения концентрации PM2.5, полученные с оптического датчика CityAir (PMs).
Ниже приведены коэффициенты детерминации R2 регрессионных моделей, обученных на полном объеме данных обучающей выборки для дублирующей пары постов.
Результаты для пары постов, расположенных в Ветлужанке
Модель | PMm | PMm, ts | PMm, ts, hs | PMm, ts, ps | PMm, ts, ps, hs |
Линейная регрессия (МНК) | 0.844 | 0.856 | 0.857 | 0.858 | 0.859 |
Регрессия случайного леса | 0.848 | 0.864 | 0.883 | 0.893 | 0.902 |
Регрессия k-ближайших соседей | 0.830 | 0.870 | 0.882 | 0.883 | 0.889 |
Регрессия опорных векторов | 0.831 | 0.850 | 0.853 | 0.760 | 0.748 |
Регрессия Лассо | 0.844 | 0.856 | 0.856 | 0.858 | 0.859 |
Регрессия эластичной сети | 0.844 | 0.856 | 0.856 | 0.858 | 0.859 |
Регрессия дерева решений | 0.847 | 0.789 | 0.803 | 0.815 | 0.825 |
Множественная линейная регрессия, учитывающая максимальное количество факторов, для парных датчиков поста Ветлужанка имеет следующий вид:
\begin{align*} P{{M}_{s}}={{a}_{0}}+{{a}_{1}}\cdot P{{M}_{m}}+{{a}_{2}}\cdot {{t}_{s}}+{{a}_{3}}\cdot {{p}_{s}}+{{a}_{4}}\cdot {{h}_{s}}= \\ =88.068+2.100p{{m}_{m}}-0.781{{t}_{s}}-0.127{{p}_{s}}+0.054{{h}_{s}} \end{align*}
где коэффициенты определены со следующими доверительными интервалами:
\begin{gather*} a_0 \in [86.584;89.209]; a_1 \in [2.097;2.103]; a_2 \in [-0.785;-0.777];\\a_3 \in [-0.129;-0.125]; a_4 \in [0.054;0.056] \end{gather*}
Значения коэффициента детерминации R2, рассчитанного для некоторых групп значений концентрации PM2.5 датчика, расположенного в Ветлужанке тестовой выборки для линейной регрессии (MНК), построенной на всём объеме данных обучающей выборки
Данные | PMm | PMm, ts | PMm, ts, hs | PMm, ts, ps | PMm, ts, ps, hs |
Усредненные за сутки | 0.939 | 0.944 | 0.952 | 0.954 | 0.953 |
Усредненные за 6 часов | 0.936 | 0.941 | 0.947 | 0.947 | 0.947 |
Усредненные за час | 0.895 | 0.901 | 0.907 | 0.907 | 0.907 |
Не превышающие ПДК | 0.324 | 0.304 | 0.357 | 0.356 | 0.357 |
Превышающие ПДК | 0.739 | 0.770 | 0.764 | 0.771 | 0.771 |
Октябрь-Март | 0.862 | 0.863 | 0.866 | 0.867 | 0.868 |
Июнь-Август | 0.220 | 0.314 | 0.338 | 0.367 | 0.363 |
Апрель, Май, Сентябрь | 0.582 | 0.600 | 0.603 | 0.603 | 0.602 |
Результаты для пары датчиков, расположенных в Свердловском районе
Коэффициент детерминации R2 регрессионных моделей, обученных на полном объеме данных обучающей выборки для дублирующей пары постов, расположенной в Свердловском районе
Модель | PMm | PMm, ts | PMm, ts, hs | PMm, ts, ps | PMm, ts, ps, hs |
Линейная регрессия (МНК) | 0.860 | 0.866 | 0.868 | 0.867 | 0.869 |
Регрессия случайного леса | 0.864 | 0.862 | 0.892 | 0.903 | 0.913 |
Регрессия k-ближайших соседей | 0.845 | 0.870 | 0.882 | 0.880 | 0.889 |
Регрессия опорных векторов | 0.856 | 0.855 | 0.867 | 0.765 | 0.751 |
Регрессия Лассо | 0.860 | 0.866 | 0.868 | 0.867 | 0.868 |
Регрессия эластичной сети | 0.860 | 0.866 | 0.868 | 0.867 | 0.868 |
Регрессия дерева решений | 0.862 | 0.790 | 0.809 | 0.831 | 0.838 |
Множественная линейная регрессия, учитывающая максимальное количество факторов, для парных датчиков поста «Свердловский» имеет следующий вид:
\begin{align*} P{{M}_{s}}={{a}_{0}}+{{a}_{1}}\cdot P{{M}_{m}}+{{a}_{2}}\cdot {{t}_{s}}+{{a}_{3}}\cdot {{p}_{s}}+{{a}_{4}}\cdot {{h}_{s}}= \\ =-97.603+2.075p{{m}_{m}}-0.239{{t}_{s}}+0.120{{p}_{s}}+0.089{{h}_{s}} \end{align*}
где коэффициенты определены со следующими доверительными интервалами:
\begin{gather*} {{a}_{0}}\in [-99.504;-94.518]; {{a}_{1}}\in [2.071;2.078]; {{a}_{2}}\in [-0.240;-0.237]; \\{{a}_{3}}\in [0.116;0.123]; {{a}_{4}}\in [0.089;0.090] \end{gather*}
Значения коэффициента детерминации R2, рассчитанного для некоторых групп значений концентрации PM2.5 датчика, расположенного в Свердловском районе тестовой выборки для линейной регрессии (MНК), построенной на всём объеме данных обучающей выборки
Данные | PMm | PMm, ts | PMm, ts, hs | PMm, ts, ps | PMm, ts, ps, hs |
Усредненные за сутки | 0.960 | 0.959 | 0.964 | 0.962 | 0.964 |
Усредненные за 6 часов | 0.934 | 0.937 | 0.940 | 0.939 | 0.941 |
Усредненные за час | 0.883 | 0.887 | 0.890 | 0.889 | 0.891 |
Не превышающие ПДК | 0.560 | 0.551 | 0.580 | 0.571 | 0.580 |
Превышающие ПДК | 0.671 | 0.694 | 0.689 | 0.689 | 0.690 |
Октябрь-Март | 0.845 | 0.847 | 0.850 | 0.850 | 0.850 |
Июнь-Август | 0.865 | 0.883 | 0.884 | 0.879 | 0.884 |
Апрель, Май, Сентябрь | 0.610 | 0.619 | 0.635 | 0.628 | 0.635 |
Результаты для пары датчиков, расположенных в Кировском районе
Коэффициент детерминации R2 регрессионных моделей, обученных на полном объеме данных обучающей выборки для дублирующей пары постов, расположенной в Кировском районе
Модель | PMm | PMm, ts | PMm, ts, hs | PMm, ts, ps | PMm, ts, ps, hs |
Линейная регрессия (МНК) | 0.880 | 0.883 | 0.884 | 0.883 | 0.884 |
Регрессия случайного леса | 0.882 | 0.880 | 0.906 | 0.907 | 0.918 |
Регрессия k-ближайших соседей | 0.870 | 0.885 | 0.895 | 0.890 | 0.901 |
Регрессия опорных векторов | 0.880 | 0.883 | 0.884 | 0.883 | 0.884 |
Регрессия Лассо | 0.880 | 0.883 | 0.884 | 0.883 | 0.884 |
Регрессия эластичной сети | 0.880 | 0.883 | 0.884 | 0.883 | 0.884 |
Регрессия дерева решений | 0.880 | 0.807 | 0.828 | 0.832 | 0.848 |
Множественная линейная регрессия, учитывающая максимальное количество факторов, для парных датчиков поста «Кировский» имеет следующий вид:
\begin{align*} P{{M}_{s}}={{a}_{0}}+{{a}_{1}}\cdot P{{M}_{m}}+{{a}_{2}}\cdot {{t}_{s}}+{{a}_{3}}\cdot {{p}_{s}}+{{a}_{4}}\cdot {{h}_{s}}= \\ =-80.406+2.241p{{m}_{m}}-0.301{{t}_{s}}+0.093{{p}_{s}}+0.111{{h}_{s}} \end{align*}
где коэффициенты определены со следующими доверительными интервалами:
\begin{gather*} {{a}_{0}}\in [-84.451;-76.690]; {{a}_{1}}\in [2.238;2.245]; {{a}_{2}}\in [-0.304;-0.298];\\{{a}_{3}}\in [0.089;0.099]; {{a}_{4}}\in [0.110;0.112] \end{gather*}
Значения коэффициента детерминации R2, рассчитанного для некоторых групп значений концентрации PM2.5 датчика, расположенного в Кировском районе тестовой выборки для линейной регрессии (MНК), построенной на всём объеме данных обучающей выборки
Данные | PMm | PMm, ts | PMm, ts, hs | PMm, ts, ps | PMm, ts, ps, hs |
Усредненные за сутки | 0.974 | 0.972 | 0.978 | 0.977 | 0.978 |
Усредненные за 6 часов | 0.958 | 0.958 | 0.962 | 0.960 | 0.962 |
Усредненные за час | 0.893 | 0.894 | 0.898 | 0.897 | 0.898 |
Не превышающие ПДК | 0.556 | 0.520 | 0.568 | 0.562 | 0.569 |
Превышающие ПДК | 0.672 | 0.689 | 0.688 | 0.686 | 0.688 |
Октябрь-Март | 0.827 | 0.828 | 0.832 | 0.831 | 0.832 |
Июнь-Август | 0.780 | 0.796 | 0.804 | 0.801 | 0.804 |
Апрель, Май, Сентябрь | 0.646 | 0.649 | 0.664 | 0.664 | 0.666 |
Результаты для пары датчиков, расположенных в Покровском районе
Коэффициент детерминации R2 регрессионных моделей, обученных на полном объеме данных обучающей выборки для дублирующей пары постов, расположенной в Покровском районе
Модель | PMm | PMm, ts | PMm, ts, hs | PMm, ts, ps | PMm, ts, ps, hs |
Линейная регрессия (МНК) | 0.791 | 0.804 | 0.805 | 0.804 | 0.805 |
Регрессия случайного леса | 0.788 | 0.782 | 0.817 | 0.836 | 0.852 |
Регрессия k-ближайших соседей | 0.765 | 0.790 | 0.810 | 0.807 | 0.824 |
Регрессия опорных векторов | 0.791 | 0.804 | 0.805 | 0.804 | 0.805 |
Регрессия Лассо | 0.791 | 0.804 | 0.805 | 0.804 | 0.805 |
Регрессия эластичной сети | 0.791 | 0.804 | 0.805 | 0.804 | 0.805 |
Регрессия дерева решений | 0.785 | 0.650 | 0.691 | 0.699 | 0.733 |
Множественная линейная регрессия, учитывающая максимальное количество факторов, для парных датчиков поста «Покровский» имеет следующий вид:
\begin{align*} P{{M}_{s}}={{a}_{0}}+{{a}_{1}}\cdot P{{M}_{m}}+{{a}_{2}}\cdot {{t}_{s}}+{{a}_{3}}\cdot {{p}_{s}}+{{a}_{4}}\cdot {{h}_{s}}= \\ =8.273+2.054p{{m}_{m}}-0.613{{t}_{s}}-0.010{{p}_{s}}+0.050{{h}_{s}} \end{align*}
где коэффициенты определены со следующими доверительными интервалами:
\begin{gather*} {{a}_{0}}\in [7.885;8.708]; {{a}_{1}}\in [2.050;2.057]; {{a}_{2}}\in [-0.616;-0.610];\\{{a}_{3}}\in [-0.011;-0.010]; {{a}_{4}}\in [0.049;0.051] \end{gather*}
Значения коэффициента детерминации R2, рассчитанного для некоторых групп значений концентрации PM2.5 датчика, расположенного в Покровском районе тестовой выборки для линейной регрессии (MНК), построенной на всём объеме данных обучающей выборки
Данные | PMm | PMm, ts | PMm, ts, hs | PMm, ts, ps | PMm, ts, ps, hs |
Усредненные за сутки | 0.890 | 0.907 | 0.911 | 0.910 | 0.911 |
Усредненные за 6 часов | 0.873 | 0.888 | 0.892 | 0.891 | 0.892 |
Усредненные за час | 0.780 | 0.797 | 0.800 | 0.800 | 0.801 |
Не превышающие ПДК | 0.451 | 0.491 | 0.500 | 0.500 | 0.500 |
Превышающие ПДК | 0.493 | 0.524 | 0.529 | 0.527 | 0.529 |
Октябрь-Март | 0.722 | 0.737 | 0.739 | 0.739 | 0.739 |
Июнь-Август | 0.466 | 0.541 | 0.548 | 0.548 | 0.549 |
Апрель, Май, Сентябрь | 0.517 | 0.529 | 0.541 | 0.542 | 0.541 |
На основе результатов регрессионного анализа можно сделать следующие выводы.
- Множественная линейная регрессия с помощью наименьших квадратов (MLS) даёт хорошее приближение, сравнимое по точности с более сложными и вычислительноемкими методами машинного обучения. При этом линейная регрессия позволяет в явном виде получать коэффициенты, отражающие зависимость значения отклика от значений факторов.
- Для всех пар дублирующих датчиков лучшую точность предсказания отклика дают непараметрические методы случайный лес и
k
ближайших соседей’.
- Добавление в анализ зависимости факторов влажности и давления не дает значительного улучшения точности моделей. Это можно объяснить двумя причинами: 1) всесезонность выборки гасит разнонаправленное влияние этих факторов в разные сезоны; 2) обсуждаемая ранее некорректность измерений влажности.