Beatriz Gaspar

Cuidado con el uso de variables sensibles en modelos predictivos

Las inequidades en la vida “real” están más arraigadas a tan solo decir si uno es mujer u hombre, los sesgos se inmiscuyen hasta en las ranuras más delgadas de nuestra sociedad y se identifican en los comportamientos físicos y digitales que tenemos.

26 April, 2022

Uno de los mitos más frecuentes con respecto al uso de variables sensibles en modelos de machine learning (ML) corresponden a que el utilizar este tipo de datos provocará que el modelo tenga sesgos o inequidades hacia estas variables.

Permítame elaborar: imagina que tenemos un modelo que predice si una persona en busca de empleo no encontrará uno en los siguientes siete meses. Además, imagina que la acción asociada a esta predicción consiste en que el estado le dará una ayuda económica mensual a estas personas.

No te pierdas:Ciencia de datos en política pública

Nuestra intuición podría llevarnos a pensar que sería equivocado incluir como variables predictoras el sexo y la edad de las personas, debido a que provocaremos que el modelo aprenda inequidades que naturalmente existen entre estas variables para conseguir un empleo. Es decir, un hombre entre 25 y 30 años tiene más posibilidades de encontrar un empleo que una mujer entre 40 y 50 años.

Siguiendo esta ruta de pensamiento, imagina que no ocupamos estas variables en nuestro modelo predictivo con el afán de evitar estos sesgos, ¿considera usted que únicamente por no incluir estas variables el modelo no tendrá inequidades para las mujeres u hombres, o para los que están entre ciertos rangos de edad? Me encantaría decirle que sí, que con esta simple omisión se pueden eliminar los sesgos.

Lo cierto es que, las inequidades en la vida “real” están más arraigadas a tan solo decir si uno es mujer u hombre, los sesgos se inmiscuyen hasta en las ranuras más delgadas de nuestra sociedad y se identifican en los comportamientos físicos y digitales que tenemos. Esta es la razón por la cual no incluir este tipo de variables no elimina sesgos en los modelos de ML y, para el caso, tampoco en los modelos que no ocupan componentes de ML. Y esta es la razón por la cual cuantificar estos sesgos se vuelve un componente altamente relevante y necesario en problemas de ciencia de datos predictivos.

No te pierdas:En la madriguera del conejo de machine learning

En ocasiones no es posible ocupar este tipo de variables por alguna cuestión legal, y estos deben de ser los únicos casos en los que no debemos incluir este tipo de variables en los modelos. En el resto de los casos, debemos estar ocupando los grupos de interés en los modelos predictivos para incluir toda la información posible del contexto del problema.

Permítame ser clara, si se incluyen o no variables sensibles al modelo siempre es posible cuantificar los sesgos e inequidades que el modelo está teniendo para estos grupos. La cuantificación nos permitirá identificar en qué valores del grupo tenemos ventajas o desventajas y, en consecuencia, poder aplicar metodologías que nos harán mitigar dichos sesgos.

Asimismo, cuantificar estos sesgos e inequidades nos permitirá ser transparentes tanto con el tomador de decisiones como con las personas a las que impactamos con el modelo, brindando información relevante que nos permite tomar mejor decisiones y tener más confianza en los modelos de ML predictivos.

Machine Learning inequidad inteligencia artificial