Deep Air: 'smart data' para diseñar ciudades más saludables

Artículo escrito por los estudiantes MSc in Business Analytics Davide Callegaro and Peter Bruins  

Vivimos en una sociedad cada vez más consciente de los efectos secundarios adversos de vivir en aire contaminado. Como resultado, la contaminación se está convirtiendo en un problema crítico cuando se diseñan o rediseñan las ciudades. Por desgracia, es difícil evaluar qué efecto tienen las elecciones individuales, ya que la causalidad es difícil de confirmar.

El problema es aún más complicado, ya que el comportamiento humano es fundamental para los resultados reales. Afortunadamente, los planificadores urbanos han desarrollado sus carreras buscando formas de animar a las personas a tomar decisiones individuales. Lamentablemente, hasta ahora eso es todo; no poseen las herramientas necesarias para evaluar lo que se precisa hacer para reducir la contaminación, especialmente en aquellos entornos que no son lo bastante ricos para predecir con grandes supercomputadores.

El hecho de que los seres humanos tienen un efecto considerable sobre los niveles de contaminación es ya incuestionable. Un vistazo a la reciente pandemia de Covid-19 muestra hasta qué punto nuestro comportamiento se correlaciona con la contaminación del aire en nuestras ciudades. En Barcelona, los niveles de dióxido de nitrógeno (NO2) cayeron a valores considerados durante mucho tiempo como inalcanzables; en comparación con la “vida normal”, los niveles fueron aproximadamente un 64% más bajos en marzo de 2020. Combine este resultado con el conocimiento de que múltiples estudios han demostrado que la contaminación por NO2 está asociada con diversas enfermedades como la diabetes mellitus, la hipertensión, los accidentes cerebrovasculares, la enfermedad pulmonar obstructiva crónica (EPOC) y el asma. En pocas palabras, el reto de la contaminación que enfrentamos en nuestras ciudades es muy relevante, y las consecuencias de nuestro éxito en este ámbito se dejan sentir en todos nosotros.

Sabiendo esto, es cada vez más evidente que debemos actuar. La pregunta es: ¿cómo? Para encontrar una respuesta, combinamos nuestras fuerzas con 300.000 Km/s, un think tank urbano que intenta hacer posibles decisiones inteligentes en las ciudades a partir de datos con sede en Barcelona. Nuestro objetivo era utilizar los datos de forma inteligente para permitir que los arquitectos de la ciudad tomaran decisiones más informadas al considerar la contaminación del aire. Con una gran cantidad de datos, esto genera preguntas esenciales desde el principio: ¿qué datos son relevantes? ¿cómo hacemos que los datos sean inteligentes?

Deep-air

Nuestro enfoque

Nuestro viaje del proyecto de Máster de Esade comenzó en la mesa de la cocina de Esteve Almirall, debatiendo las diferentes opciones que teníamos (Davide y Peter) para hacer realidad un proyecto impactante y emocionante que pondría fin a nuestro Máster en Business Analytics en Barcelona. No pasó mucho tiempo hasta que nos enfocamos en las smart cities, un área en la que Esteve ha investigado bastante últimamente. Poco después, fijamos nuestro ámbito de actuación cuando Esteve se puso en contacto con Mar y Pablo, los líderes de 300.000 Km/s. Iniciamos nuestro ambicioso proyecto con un interesante conjunto de datos que nos proporcionó 300.000 Km/s.

Este conjunto de datos contenía datos de desplazamientos de todas las personas en España recopilados por el movimiento de sus dispositivos móviles. España se ha dividido en aproximadamente 2.500 regiones y se han recogido todos los viajes entre estas regiones. Dado que los científicos han demostrado durante mucho tiempo que el dióxido de nitrógeno (NO2) guarda una estrecha correlación con los desplazamientos, y en particular los automóviles diésel emiten una gran cantidad, estos datos fueron un buen punto de partida. Para reforzar la solidez de nuestros datos iniciales, agregamos a los mismos muchas estadísticas ambientales. Variaban desde el número de personas por grupo de edad que viven en estas áreas hasta su renta media.

Un vistazo a la reciente pandemia de Covid-19 muestra hasta qué punto nuestro comportamiento se correlaciona con la contaminación del aire en nuestras ciudades

Como nuestro objetivo era predecir con precisión los niveles de NO2 de España zona por zona, necesitábamos pensar más en las técnicas de modelado que íbamos a utilizar. Nuestro modelo se creó usando una combinación de técnicas de aprendizaje automático estándares con otras poco comunes. Usamos matrices de correlación, árboles de regresión de bosque aleatorio, representaciones basadas en gráficos y herramientas espaciales con retardo de principio a fin. Mientras luchábamos por usar los datos de manera óptima, Andre, el científico de datos de 300.000 Km/s, nos presentó el concepto de retardo espacial. Esta función se introdujo para utilizar la fuerza de los datos que poseemos, es decir, la información geográfica, de la mejor manera posible. Al hacerlo, pudimos introducir la “espacialidad” en nuestro vocabulario de aprendizaje automático.

Como resultado, pudimos extraer información vital que normalmente se pierde en las técnicas tradicionales de aprendizaje automático, como los bosques aleatorios o XGBoost. Observamos el coeficiente I de Moran para asegurarnos de que solo usaríamos características de retardo espacial que poseyeran información completa. Este coeficiente es una medida de autocorrelación espacial, que, en términos simples, representa cuán bueno es predecir un elemento con el conocimiento del valor de la misma calidad en áreas geográficamente vecinas.

Nuestro producto final fue un modelo que utilizaba la mejor combinación de características “normales” y de “retardo espacial” para predecir los niveles de dióxido de nitrógeno en España. Comenzamos nuestra búsqueda inicial del mejor modelo posible para las más de 30 características y terminamos con un modelo que utiliza ocho características para predecir el NO2 en toda España. El coeficiente I de Moran y los ensayos múltiples entre diferentes características incorporan retardo espacial. Llegamos a un modelo que tiene una precisión del 88,8% para predecir los niveles de dióxido de nitrógeno en toda España. Descubrimos que el porcentaje de espacio utilizado para edificios residenciales y el número de viviendas con una superficie de entre 61 y 90 m2 eran los predictores más potentes de los niveles de NO2. Otros predictores notables fueron las casas con una superficie de entre 45 y 60 m2 y el número de personas entre 0 y 25 viviendo por kilómetro cuadrado. Por lo tanto, podríamos predecir el nivel de NO2 con precisión, basándonos sobre todo en información residencial. Esta información muestra cómo una buena planificación urbana puede afectar la habitabilidad de las ciudades.

Deep-air
Bosque aleatorio - Precisión 88,876% std 1,376834%
Deep-air
Deep-air
Mapa de precisión – más oscuro significa menos preciso

Consideraciones finales

En nuestra opinión, múltiples sectores pueden aprovechar los resultados de nuestro modelo. El sector público puede ser considerado como uno de los grandes beneficiarios, ya que la planificación urbana es relevante en lo referente a contaminación. Al adoptar estrategias innovadoras para reducir el tráfico entre lugares, las ciudades podrían tener un mayor impacto a un menor coste en comparación con las rutas que se toman en la actualidad. Este modelo nos dará información sobre lo que sucede si ajustamos flujos de tráfico concretos dentro de toda la estructura. Un ejemplo puede ser la construcción de oficinas en Sant Cugat para reducir la afluencia de tráfico a Barcelona y mejorar la calidad del aire de la metrópoli. Esta acción contrasta con las que se toman hoy en día, donde los políticos intentan resolver los problemas tomando medidas allí donde la contaminación es demasiado alta.

En un nivel superior, los países pueden utilizar estos modelos para comprobar si su planificación de la contaminación a más alto nivel funciona de acuerdo con su plan. Nuestras predicciones pueden comparar las áreas en las que se han tomado medidas específicas de minimización de la contaminación para revisar su éxito en tal escenario. Esta observación reducirá el período de puesta en práctica de ideas exitosas, ya que llevará menos tiempo confirmar los resultados. Además, permitirá una implementación más rápida de ideas nuevas, ya que una mala idea se descartará antes. Todo esto ahorrará costos y, con un poco de suerte, podría ofrecer una cierta ventaja en la protección del medio ambiente.

Todo el contenido está disponible bajo la licencia Creative Commons Reconocimiento 4.0 Internacional.