La inteligencia artificial en el sistema legal: el caso COMPAS
Inteligencia Artificial, ¿aliada o enemiga?

Participante activo e impulsor del ecosistema de ciencia de datos en México. Co-fundador de tres startups relacionadas con inteligencia artificial. Posdoctorado en Sistemas Complejos de C3. Director Académico de la Escuela de Gobierno y Transformación Pública del Tec de Monterrey.

Twitter: @nano_unanue

La inteligencia artificial en el sistema legal: el caso COMPAS
Foto: Vitaly Vlasov/ Pexels

En la columna anterior abordé la implementación de la inteligencia artificial en el sistema legal. A lo largo de este texto analizaré un caso práctico en el que se utilizó un sistema de predicción de riesgo de reincidencia como soporte para tomar decisiones en el sistema judicial: caso de COMPAS – Northpointe.

En 2016, ProPublica, una organización de periodistas independientes, analizó el score de riesgo que había determinado COMPAS con respecto a las posibles conductas de desaparición o reincidencia que un acusado podía tener. Encontró que la estimación tenía un sesgo en contra de las personas con piel negra; pues un mayor porcentaje (45%) de las personas con piel negra que NO fueron detenidas durante los siguientes dos años habían sido clasificadas como de alto riesgo, mientras que asignó dicha clasificación al 23% de las personas con piel blanca. Concluyó que COMPAS discriminaba en el siguiente sentido: si eres una persona, que no va a reincidir, ¿cuál es la probabilidad de que el sistema te califique de alto riesgo con base en el color de tu piel

Northpointe respondió que la métrica de equidad que ProPublica planteaba, estaba mal calculada, pues lo que COMPAS pretendía calcular era: si el modelo te califica de alto riesgo, ¿cuál es la probabilidad de que el sistema legal tome una mala decisión, dependiendo del color de tu piel? Los datos que la compañía obtuvo fueron muy distintos a los de la organización: de las personas clasificadas como de alto riesgo que NO reincidieron: 37% tenía la piel negra y 41% blanca.  

¿Por qué se obtuvieron resultados tan distintos? La respuesta recae en la forma en la que cada una analizó los datos. Imagina que tienes una base de datos con la información de las personas acusadas segmentadas en las siguientes columnas: ¿reincidió?, color de piel y ¿alto riesgo? Y que analizarás la información aplicando determinados filtros.

ProPublica primero filtro a las personas que NO reincidieron, después seleccionó al grupo que había sido calificado como de alto riesgo y sobre este obtuvo el porcentaje para cada color de piel. Mientras que Northpointe primero seleccionó a todos aquellos acusados que fueron calificados de alto riesgo, luego filtró a las personas que NO reincidieron y sobre esta segmentación obtuvo los porcentajes por cada color de piel. Es importante destacar que la métrica propuesta por Northpointe se basa en las personas que recibirán alguna acción determinada por el sistema, a diferencia de la anterior.

Con base en esto, el riesgo del uso de la inteligencia artificial en cualquier sector no está en la herramienta per se, sino en la definición de cómo esta se va a utilizar y cómo se medirán los resultados obtenidos. Lo primero que se debe hacer antes de utilizar sistemas de inteligencia artificial en cualquier sector es contextualizar el problema a resolver para que entre científicos de datos, policy makers y usuarios del sistema, establezcan la métrica que van a utilizar (en este caso definición de equidad). Consulta la siguiente discusión, que ejemplifica porqué esta definición no es trivial, mucho menos cuando hablamos de impartición de justicia.