

Abordando las complejidades de la equidad en el aprendizaje automático
Los sistemas automatizados para la toma de decisiones pueden reproducir, e incluso amplificar, los sesgos que discriminan hoy a ciertos individuos o minorías. Evitarlo supone todo un reto

A principios de 2018, un grupo de investigadores del MIT llevó a cabo el “Moral Machine Experiment”. Con este experimento, todavía disponible online, buscaban comprender las actitudes de los usuarios respecto a las decisiones tomadas por vehículos autónomos, experimentando por sí mismos con esos dilemas morales.
El estudio presentaba a los participantes diversos escenarios en que un vehículo sin conductor se veía obligado a tomar una decisión en una milésima de segundo, como elegir entre sacrificar la vida de un pasajero o de un peatón, o salvar las vidas de los más jóvenes a costa de los más mayores.
Los resultados, publicados en la revista Nature, hablaban de un gran abanico de opiniones sobre qué constituye una decisión justa y ética, lo que demuestra la dificultad de establecer una definición universal de equidad, una cuestión que ha sido objeto de creciente atención en los últimos años.

A medida que los sistemas automatizados de toma de decisiones se van generalizando en nuestra vida diaria, aumenta la preocupación sobre su impacto potencial en la sociedad. Una de las cuestiones más críticas que se debate es la capacidad de estos sistemas de perpetuar e incluso amplificar los sesgos, dando pie a prácticas que discriminen a determinados individuos o minorías. Esta preocupación se conoce como el problema de la equidad.
¿Cómo medir la equidad?
La equidad se refiere a la imparcialidad o a la justicia de un sistema de toma de decisiones. Está relacionada con los sesgos del sistema y su potencial discriminatorio. Evaluar este potencial no es una tarea tan fácil como podría parecer, porque la equidad no tiene una definición única y universal, y las decisiones con respecto a ella suelen estar sujetas a contrapartidas. Así, lo que puede parecer justo en un contexto, puede no serlo en otro. La cuestión es, pues, ¿cómo decidir qué es justo en el ámbito de la toma de decisiones automatizadas?
Desde el punto de vista técnico, la equidad se evalúa generalmente a partir de la identificación de uno o más atributos protegidos o sensibles, como la raza, el origen étnico, el género, la edad, las capacidades físicas o mentales o la orientación sexual. Un sistema automatizado se considera justo si sus predicciones son independentes de estos atributos protegidos, siempre que las diferencias estadísticas observadas en base a ellos no estén debidamente justificadas. Sin embargo, en la práctica, no resulta tan sencillo evaluar esta independencia.
Tres enfoques al problema de la equidad
Vamos a ilustrar esta cuestión a través de un ejemplo muy sencillo. Queremos evaluar la idoneidad de un conjunto de solicitantes para recibir una beca de estudios. Para entrenar un modelo de aprendizaje automático que lleve a cabo esta tarea, necesitamos reunir X datos históricos de las últimas convocatorias de dicha beca.
Supongamos que tenemos registros de las últimas 4 convocatorias, y que para todos los candidatos conocemos su nota media y su nivel socioeconómico. Supongamos que sabemos también el resultado de cada solicitud, representado por una variable objetivo Y con dos valores en función de si la beca ha sido otorgada o no otorgada. El gráfico siguiente muestra este conjunto de datos. Cada punto representa a un candidato, mientras que el color indica el resultado.
Podemos utilizar estos datos para entrenar nuestro modelo de aprendizaje automático e identificar sus predicciones con la letra R. Al igual que antes, esta variable tomará dos valores en función de si el solicitante es considerado apto o no apto por el modelo. El desempeño del modelo dependerá del grado de acuerdo entre las etiquetas reales Y, y las predicciones R para cada candidato de la base de datos.
Finalmente, vamos a introducir también un atributo protegido, identificado con la letra A para separar a los candidatos en función de su género. Para simplificar, vamos a considerar el género en términos binarios. El atributo A nos permite definir dos poblaciones: hombres y mujeres.
Así pues, operamos con estas tres variables:
- Y = Resultado real: concedida o no concedida
- R = Predicción: apto o no apto
- A = Atributo protegido: hombre o mujer
Una vez descrito el ejemplo, vamos a analizar distintos enfoques para garantizar la equidad del sistema predictivo resultante.
1. Omitir la información sensible
Un enfoque intuitivo sería omitir la información sobre el género de los candidatos durante el proceso de entrenamiento. Ello garantizaría que las predicciones R realizadas por el modelo no se basan en el atributo protegido A, dado que el modelo no tiene acceso a esta información.
El gráfico siguiente muestra una posible frontera de decisión aprendida por el modelo utilizando este enfoque. Nos referimos al caso más simple y consideramos un modelo lineal, que separa el espacio en dos regiones mediante una línea recta. La región sombreada en rojo incluye todos los puntos clasificados por el modelo como aptos, mientras que la región sombreada en azul incluye a aquellos individuos que el modelo considera no aptos para la beca.
Obsérvese que solo hay 4 puntos en que las predicciones R realizadas por el modelo no coinciden con las etiquetas originales Y. Son los puntos azules que se hallan en la región sombreada en rojo o los puntos rojos situados en la región sombreada en azul. Esto quiere decir que el modelo clasifica correctamente el 80% de los puntos. Es decir, se trata de un modelo razonablemente preciso.
Para valorar si se trata o no de un modelo justo, vamos a evaluar su impacto sobre las dos poblaciones definidas por el atributo protegido A. Recordemos que el modelo no tuvo acceso a estos datos durante el período de entrenamiento. El gráfico siguiente muestra la misma frontera decisión anterior, pero en esta ocasión identifica a los individuos mediante círculos o por cruces, en función de su género.
Podemos ver que en la región roja hay más cruces que círculos, mientras que en la azul hay más círculos que cruces. El modelo no se basa en el atributo protegido A y, sin embargo, tiene un impacto desigual sobre las dos poblaciones. Esto demuestra que el desconocimiento no es garantía de equidad en los sistemas de toma de decisiones automatizadas.
2. Forzar la igualdad de oportunidades
Otro enfoque es garantizar la equidad forzando que la probabilidad de ser clasificado como apto por el modelo sea la misma para ambas poblaciones definidas por el atributo protegido. Simplificando, que la proporción de cruces y círculos en la región sombreada en rojo sea la misma.
Esta vez, el gráfico muestra la frontera de decisión aprendida por el modelo basándose en este enfoque. Vemos que, ahora sí, el modelo clasifica como aptos al mismo porcentaje de hombres y de mujeres.
Retomando nuestra definición original de equidad, podemos concluir que las predicciones de este modelo son efectivamente independientes del atributo protegido. Parece, pues, que hemos resuelto el problema.
Antes de concluir, sin embargo, vamos a evaluar el rendimiento del modelo. El modelo ha clasificado erróneamente como aptos a 5 candidatos que no recibieron la beca y como no aptos a 4 que sí la obtuvieron. Esto supone un grado de precisión del 55%, un valor significativamente inferior al obtenido utilizando el enfoque anterior.
Pese a todo, podemos optar por aceptar esta solución, porque garantiza un trato igualitario para hombres y mujeres... ¿O no es así? Si examinamos más detenidamente el modelo, encontramos que su desempeño varía entre ambas poblaciones.
El modelo clasifica erróneamente como aptos a 2 hombres que no recibieron la beca y como no apto a 1 que sí la obtuvo. Entre la población femenina, el modelo clasifica erróneamente como aptas a 3 mujeres que no recibieron la beca y como no aptas a 3 que sí la obtuvieron. Por tanto, el resultado es un grado de precisión del 70% para los hombres y del 40% para las mujeres.
Nuestra solución, pues, pese a los esfuerzos realizados, sigue sin tratar de igual forma a ambas poblaciones. Incluso en el supuesto más optimista, en el que nos centramos exclusivamente en los individuos clasificados como aptos, observamos un desequilibrio en el grado de precisión para ambas poblaciones: el 66% de los hombres clasificados como aptos obtuvieron realmente la beca mientras que, en el caso de las mujeres, este porcentaje apenas llega al 50%.
3. Forzar la igualdad en el desempeño
En un último intento, vamos a requerir que estos dos últimos valores sean iguales para las dos poblaciones. Es decir, vamos a entrenar un modelo que muestre un rendimiento predictivo igual para hombres y mujeres.
El gráfico siguiente ilustra la frontera de decisión aprendida por un posible modelo basado en este criterio. Nótese que todos los puntos de la región sombreada en rojo están clasificados correctamente. Esto es, el 100% de las mujeres clasificadas como aptas por el modelo obtuvieron realmente la beca, y también el 100% de los hombres.
Si tomamos en consideración los puntos incluidos en la región sombreada en azul, es decir, los individuos clasificados como no aptos por el modelo, se observan algunas diferencias entre ambas poblaciones. El modelo clasifica erróneamente como no aptas a 3 mujeres que obtuvieron la beca y como no aptos a 2 hombres que si la obtuvieron.
Ello significa que, si nos centramos en los individuos clasificados como no aptos, el modelo tiene una precisión del 57% para las mujeres y del 71% para los hombres. Así pues, si bien exhibe el mismo rendimiento predictivo entre los individuos clasificados como aptos, no procede del mismo modo con los clasificados como no aptos.
Además, si nos fijamos en la distribución real de las etiquetas Y para ambas poblaciones, podemos observar que, de los 10 hombres de la serie de datos, 5 obtuvieron inicialmente la beca (un 50%) mientras que, de las 10 mujeres, la obtuvieron 6 (un 60%). Al clasificar como aptos el mismo número de mujeres y hombres, el modelo supone que ambas poblaciones tienen las mismas posibilidades de optar a la beca, pero los datos parecen indicar otra cosa.
Una vez más, vemos que necesitamos identificar claramente qué significa la equidad para este modelo, con el fin de poder garantizar que se aplique en la práctica.
Un problema abierto
Este ejemplo tan sencillo muestra que la equidad en la toma de decisiones automatizada es un problema complejo y multifacético: lo que parece justo en un determinado contexto puede no serlo en otro.
En general, la equidad se evalúa exigiendo la independencia de uno o más atributos protegidos, como la raza, el origen étnico, el género o las capacidades físicas. En la práctica, no obstante, este criterio puede estar sujeto a interpretación, por lo que debe perfilarse y concretarse para cada contexto.
Además, nótese que las tres soluciones presentadas muestran desempeños distintos. El primer modelo, que fue entrenado sin que tuviera acceso al atributo protegido, logró una precisión del 80%. El segundo modelo, en que obligamos que el porcentaje de hombres y mujeres clasificados como aptos fuera el mismo, mostró una precisión del 55%. Finalmente, el tercer modelo, en que impusimos que el desempeño predictivo para todos los individuos clasificados como aptos fuera el mismo para ambas poblaciones, también tuvo una precisión del 55%.
En cuanto introducimos algún tipo de requisito de equidad durante el proceso de entrenamiento del modelo, este repercute en la precisión global del modelo. Del mismo modo, cualquier otro intento de imponer criterios de equidad en el modelo hará bajar el rendimiento del mismo.
Así pues, llegamos a la conclusión de que deben hacerse concesiones entre la equidad y la precisión, lo cual convierte la determinación de la equidad en un desafío subjetivo y constante que pone de relieve la necesidad de reflexionar y explorar, desde diferentes perspectivas, qué debe considerarse justo y cuándo.

- Compartir en Twitter
- Compartir en Linked in
- Compartir en Facebook
- Compartir en Whatsapp Compartir en Whatsapp
- Compartir en e-Mail
Únase a la comunidad Do Better
Regístrese gratuitamente y reciba nuestras recomendaciones y contenido personalizado.