В этом разделе несколькими методами обучения с учителем построены регрессионные модели, учитывающие логнормальность распределения данных об уровнях концентрации PM2.5 в приземном слое атмосферы г. Красноярска. Модели сравниваются по коэффициенту детерминации.
Факторы регрессионных моделей: логарифм уровня концентраций PM2.5, полученных анализатором E-BAM (ln(PMm)); температура (ts), давление (ps) и влажность (hs), полученные с помощью датчиков станции CityAir.
Отклик: логарифм уровня концентрации PM2.5, полученной оптическим датчиком станции CityAir (ln(PMs)).
Таким образом, строится отображение вида:
\begin{equation*} \left\{\ln( P{{M}_{m}}),{{t}_{s}},{{p}_{s}},{{h}_{s}}\right\} \to \ln( P{{M}_{s}}) \end{equation*}
Остатки (ошибка) линейной регрессии распределены нормально.
Коэффициент детерминации R2 регрессионных моделей, обученных на полном объеме данных обучающей выборки для дублирующей пары постов с учетом логнормальности распределений записей по концентрации PM2.5
Результаты для пары датчиков, расположенных в Ветлужанке
Модель | ln(PMm) | ln(PMm), ts | ln(PMm), ts, hs | ln(PMm), ts, ps | ln(PMm), ts, ps, hs |
Линейная регрессия (МНК) | 0.725 | 0.734 | 0.739 | 0.736 | 0.741 |
Регрессия случайного леса | 0.761 | 0.706 | 0.770 | 0.778 | 0.811 |
Регрессия k-ближайших соседей | 0.723 | 0.751 | 0.756 | 0.781 | 0.762 |
Регрессия опорных векторов | 0.723 | 0.734 | 0.739 | 0.736 | |
Регрессия Лассо | 0.725 | 0.734 | 0.739 | 0.736 | 0.741 |
Регрессия эластичной сети | 0.725 | 0.734 | 0.739 | 0.736 | 0.740 |
Регрессия дерева решений | 0.761 | 0.579 | 0.608 | 0.606 | 0.650 |
Результаты для пары датчиков, расположенных в Свердловском районе
Модель | ln(PMm) | ln(PMm), ts | ln(PMm), ts, hs | ln(PMm), ts, ps | ln(PMm), ts, ps, hs |
Линейная регрессия (МНК) | 0.734 | 0.744 | 0.755 | 0.744 | 0.756 |
Регрессия случайного леса | 0.759 | 0.684 | 0.765 | 0.771 | 0.813 |
Регрессия k-ближайших соседей | 0.718 | 0.736 | 0.745 | 0.778 | 0.752 |
Регрессия опорных векторов | 0.734 | 0.744 | 0.755 | 0.744 | 0.756 |
Регрессия Лассо | 0.734 | 0.744 | 0.755 | 0.744 | 0.756 |
Регрессия эластичной сети | 0.734 | 0.744 | 0.755 | 0.744 | 0.756 |
Регрессия дерева решений | 0.758 | 0.574 | 0.601 | 0.597 | 0.650 |
Результаты для пары датчиков, расположенных в Кировском районе
Модель | ln(PMm) | ln(PMm), ts | ln(PMm), ts, hs | ln(PMm), ts, ps | ln(PMm), ts, ps, hs |
Линейная регрессия (МНК) | 0.763 | 0.768 | 0.780 | 0.768 | 0.781 |
Регрессия случайного леса | 0.792 | 0.723 | 0.796 | 0.795 | 0.832 |
Регрессия k-ближайших соседей | 0.755 | 0.769 | 0.781 | 0.803 | 0.786 |
Регрессия опорных векторов | 0.763 | 0.768 | 0.780 | 0.768 | 0.781 |
Регрессия Лассо | 0.763 | 0.768 | 0.780 | 0.768 | 0.781 |
Регрессия эластичной сети | 0.763 | 0.768 | 0.780 | 0.768 | 0.781 |
Регрессия дерева решений | 0.792 | 0.626 | 0.648 | 0.640 | 0.686 |
Результаты для пары датчиков, расположенных в Покровском районе
Модель | ln(PMm) | ln(PMm), ts | ln(PMm), ts, hs | ln(PMm), ts, ps | ln(PMm), ts, ps, hs |
Линейная регрессия (МНК) | 0.703 | 0.744 | 0.746 | 0.745 | 0.746 |
Регрессия случайного леса | 0.717 | 0.671 | 0.730 | 0.756 | 0.790 |
Регрессия k-ближайших соседей | 0.665 | 0.719 | 0.725 | 0.760 | 0.749 |
Регрессия опорных векторов | 0.703 | 0.744 | 0.746 | 0.744 | 0.746 |
Регрессия Лассо | 0.703 | 0.744 | 0.746 | 0.744 | 0.746 |
Регрессия эластичной сети | 0.703 | 0.744 | 0.746 | 0.744 | 0.746 |
Регрессия дерева решений | 0.717 | 0.549 | 0.559 | 0.570 | 0.616 |
Отметим, что использование ln(PMm) вместо PMm в качестве фактора и ln(PMs) вместо PMs в качестве отклика не дает выигрыша для модели линейной регрессии, более того, это даже немного уменьшает оценку R2.