Candidatura

Clean Air App: Air Pollution Prediction

PiperLab, empresa tecnológica de Big Data y Data Science, junto con CITET (Centro de Innovación para la Logística y el Transporte), UNO, CEL, y la paquetera nacional SEUR, enmarcados en el Clúster de Innovación para la Distribución de Mercancías Sostenibles ha desarrollado el proyecto CLEAN AIR APP: Air Pollution Prediction, un modelo de predicción de la contaminación del aire de las 5 grandes ciudades españolas. Barcelona, Bilbao, Sevilla, Zaragoza y Valencia.

El proyecto tiene como objetivo mejorar la calidad del aire y permitir a las empresas logísticas y de transporte una mejor planificación de su operativa diaria.

Esta fase es continuación del modelo de previsión de Contaminación de la ciudad de Madrid que comenzamos a desarrollar en el año 2017, gracias a las Ayudas de Apoyo a Agrupaciones Empresariales Innovadoras del Ministerio de Economía, Industria y Competitividad.

Por poner en contexto el origen de este modelo de previsión de contaminación, señalar brevemente: Madrid tiene un Protocolo de Medidas para Episodios de Alta Contaminación que se activa cuando los niveles de NO2 alcanzan y exceden ciertos límites.

La activación del protocolo implica la activación a su vez de diferentes escenarios que suponen restricciones de tráfico o velocidad, dependiendo de la gravedad.

Las condiciones para que se active el protocolo son un poco complejas: cuando las medidas diarias de una zona alcanzan un cierto nivel, se establece un grado de acción para ese día.

El problema radica en que los mayores niveles de NO2 normalmente se dan por la noche, y el procesamiento de la información no es lo suficientemente rápido, por lo que las notificaciones de las restricciones se notifican cuando la mayoría de la población está durmiendo.

Por este motivo se decide apostar por el desarrollo de un modelo de previsión de contaminación que permita alertar con tiempo suficiente de sus consecuencias restrictivas.

Este modelo, cuyo éxito se basa en la incorporación de variables externas como calendarios o meteorología o lo que hemos denominado “meteorología mejorada” (variables meteorológicas construidas sobre las de mayor impacto y mayor correlación entre sí) ha permitido la realización de la siguiente fase, con un objetivo más ambicioso: replicarlo en 5 de las grandes ciudades españolas Barcelona, Valencia, Bilbao, Zaragoza y Sevilla, así como el desarrollo de una API para el consumo de las mismas por parte de los principales operadores de última milla.

El proyecto de Clean Air App está completamente vinculada al Protocolo de Calidad del Aire obligatorio en todas las grandes ciudades sino porque también cumple las exigencias del plan Horizonte 2020 para la implementación de medidas estructurales y tecnológicas que favorezcan una significativa reducción de emisiones.

Además, también permitirá a las empresas logísticas y de transporte a mejorar su planificación de rutas y de su operativa diaria.
La explicación más en detalle del proyecto la incluimos en el documento de “ampliación de información”.

Indicadores y procesos de mejora

Indicadores y procesos de mejora

En cada ciudad se están midiendo diferentes partículas contaminantes, pero en el modelo de previsión se están tratando los datos de los niveles de NO2, PM10 y 03

Cuantificación/Estimación reducción consumo

Cuantificación/Estimación reducción consumo

No aplica

Cuantificación/Estimación reducción emisiones CO2

Cuantificación/Estimación reducción emisiones CO2

El hecho de tener datos objetivos de los niveles de contaminación permite a las Administraciones Públicas actuar y llevar a cabo políticas activas con el fin de reducir dichos niveles. En este sentido, la reducción de contaminantes en espacios controlables es mayor.

Un ejemplo llamativo es la reducción de la partícula contaminante N02 en Madrid durante los meses meses de marzo y abril de 2019, fecha que coincide con la puesta en vigor de las multas por entrar al espacio denominado Madrid Central en la capital del país.

Concretamente las reducciones con respecto a 2018 son de 16,82%, 44,48%, 45,18% y 32,40% de marzo a junio respectivamente.

Innovación aplicada y buenas prácticas

Innovación aplicada y buenas prácticas

El proyecto planteado utiliza las últimas técnicas de innovación en recogida y análisis de datos de forma recurrente, esto quiere decir, se integrarán estos datos (con su periodicidad de generación correspondiente en el servicio/producto), puestos al servicio de la sostenibilidad medioambiental y a la mejora de la gestión y planificación de las ciudades. Estas son:

1. BIG DATA. Hoy en día, en muchas de las grandes ciudades, existen puestos de monitorización dispersos por su geografía que miden los niveles de calidad del aire en algunos de los parámetros anteriormente mencionados y, además, a través de portales de datos abiertos, los ayuntamientos y gobiernos de las ciudades comparten esta información con terceros para que puedan ser explotados.

La integración, depuración y análisis avanzados de dichos datos (Data Science) es lo que realmente aporta valor al concepto Big Data más allá de los datos en sí mismos.

2. MACHINE LEARNING – Machine Learning engloba diversos algoritmos y técnicas estadísticas que permiten a los sistemas informáticos que las utilizan aprender automáticamente a partir de conjuntos de datos a llevar a cabo una tarea concreta, como clasificar elementos o predecir valores futuros de una medición como la contaminación, entre otras muchas posibilidades. Frente a las técnicas de análisis de datos tradicionales en las que la heurística (fruto de la experiencia e intuición de las personas) forma parte imprescindible de las mismas, bajo el concepto de Machine Learning, son los datos los que primero determinan patrones de comportamiento para, posteriormente, ser enriquecidos con conocimiento de entorno y contexto (más datos) que terminan de completar la revolución en lo que a modelos predictivos se refiere.

En entornos tradicionales de previsión de demanda en conceptos complejos (contaminación, meteorología), aciertos medios en torno al 75 u 80% eran considerados por encima de la media; con las nuevas técnicas de machine learning se pueden alcanzar niveles del 90%, una mejora muy significativa.

3. La segunda componente de innovación son las VARIABLES EXTERNAS: Estas variables externas son fuentes de datos externos de los que no se dispone directamente en las bases de datos de la entidad que plantea un proyecto. Complementan la información interna, enriquecen variables parcialmente disponibles y ayudan a construir modelos más precisos.

El resultado de la combinación de estas fuentes de datos es la extracción de información útil. En PiperLab hemos combinado, enriquecido, refinado e identificado las variables relevantes que convierten a este proyecto en un éxito. Variables como calendarios de festivos o la meteorología mejorada (variables meteorológicas de mayor impacto y su correlación entre sí), han sido clave para el dicho éxito.

Usabilidad de Tecnologías de la Información y Comunicaciones

Usabilidad de Tecnologías de la Información y Comunicaciones

Se han utilizado las siguientes tecnologías y modelos algorítmicos:

ARIMA:

El modelo ARIMA (Autorregresivo integrado de medias móviles, en inglés: Autoregressive Moving Integrated Average) es un modelo estocástico estacionario que se basa en una combinación de tres componentes, AR (autorregresivo), I(Integrado) y MA (media móvil).

Antes de proceder con las explicaciones, es necesario entender ciertos conceptos. Una serie estacionaria es una serie temporal cuyas propiedades estadísticas tales como media, varianza, autocorrelación, etc., son constantes a lo largo del tiempo. El ruido blanco es un proceso estocástico en el que los valores de ruido no están correlacionados entre sí, con media cero y tienen la misma distribución de probabilidad gaussiana.

La idea básica del modelo AR(p) es que el valor actual de una serie temporal estacionaria se puede explicar como una función lineal del pasado donde p determina el número de pasos en el pasado necesario para pronosticar el valor actual. El orden de la integración se denota I(d), y reporta el número mínimo de diferencias ‘d’ requeridas para obtener una serie de covarianza estacionaria. El modelo de media móvil de orden q, abreviado como MA(q), asume que el ruido blanco hasta los retardos q se combinan linealmente para formar los datos observados.

Por ejemplo, hay un estudio en el que se adaptó un enfoque de modelado ARIMA para pronosticar las concentraciones promedio diarias de contaminantes del aire ambiental (O3, CO, NO, NO2) en un sitio de tráfico pesado urbano de Delhi, India[1]. El rendimiento del pronóstico de los modelos seleccionados se evaluó mediante MAPE (error porcentual absoluto medio), MAE (error absoluto promedio) y RMSE (error cuadrático medio).

PROPHET

Prophet es un software de código abierto lanzado por el equipo de Core Data Science de Facebook para pronosticar datos de series temporales basadas en un modelo aditivo en el que las tendencias no lineales se ajustan a la estacionalidad anual, semanal y diaria, más los efectos de los días no laborables. Funciona mejor con las series que tengan fuertes efectos estacionales y varias temporadas de datos históricos.

Las predicciones automáticas de ARIMA propenden a grandes errores de tendencia cuando hay cambios en la tendencia cerca del período corte y no se logra capturar ninguna estacionalidad.

Se utiliza un modelo de serie temporal descomponible con tres componentes: la tendencia que modela cambios no periódicos en el valor de la serie temporal, la estacionalidad y las vacaciones cuyos efectos que se producen en horarios potencialmente irregulares en uno o más días. Esta especificación es similar a un modelo aditivo generalizado (GAM), una clase de modelos de regresión con suavizadores potencialmente no lineales aplicados a los regresores.

ALGORITMO DE SVM:

Las máquinas de vectores de soporte (SVM; Support vector machines) son una familia de modelos de aprendizaje supervisado que se emplean para clasificación y regresión, que proporciona en general buenos resultados con conjuntos de datos de tamaño pequeño o moderado.

El objetivo del algoritmo de SVM para clasificación (SVC) es encontrar un hiperplano en un espacio N-dimensional que separe las distintas clases con el margen máximo, es decir, la distancia máxima entre los puntos de distintas clases, por lo tanto, se puede clasificar con más confianza.

En el caso del algoritmo de SVM para regresión (SVR), el concepto de margen se transforma en el concepto de tubo que intenta contener todos los puntos del conjunto de datos, en lugar de separarlos como ocurría en clasificación.

Un ejemplo de aplicación de máquinas de vectores de soporte se encuentra en “Forecasting of the daily meteorological pollution using wavelets and support vector machine” [2], donde se realiza un estudio de predicción de la contaminación meteorológica diaria mediante wavelets y SVM, obteniendo una precisión aceptable.

REDES NEURONALES

Las redes neuronales son modelos inspirados en el funcionamiento del sistema nervioso y cómo el cerebro humano procesa la información. Las unidades básicas son las neuronas, que normalmente se organizan en capas (perceptrones multicapa).

Funciona simulando una gran cantidad de unidades de procesamiento interconectadas con fuerzas de conexión (o pesos) variables que se asemejan a versiones abstractas de neuronas.

Normalmente hay tres partes: una capa de entrada, con unidades que representan las variables de entrada; una o más capas ocultas; y una capa de salida con una o varias unidades que representan las variables objetivo.

La red aprende examinando registros individuales o en lotes, generando una predicción para cada registro y haciendo ajustes a los pesos cada vez que hace una predicción incorrecta. Este proceso se repite muchas veces, y la red continúa mejorando sus predicciones hasta que se cumplan uno o más de los criterios de detención.

Si existe una relación lineal entre el objetivo y los predictores, los resultados de una red neuronal deberían aproximarse a los de un modelo lineal tradicional, que es equivalente a una red neuronal sin capas ocultas. Si la relación es no lineal, un perceptrón multicapa debería dar mejores resultados.

Para poder aprovechar esta capacidad, la activación de las capas ocultas deber ser no lineal.

Implementado en:

PiperLab

Periodo de ejecución:

09/01/2018 - 30/06/2019

Socio tecnológico destacado:

CITET

Otros socios tecnológicos:

CEL