Opinión

Cuidado con el uso de variables sensibles en modelos predictivos

Las inequidades en la vida “real” están más arraigadas a tan solo decir si uno es mujer u hombre, los sesgos se inmiscuyen hasta en las ranuras más delgadas de nuestra sociedad y se identifican en los comportamientos físicos y digitales que tenemos.

Publicado por:

Uno de los mitos más frecuentes con respecto al uso de variables sensibles en modelos de machine learning (ML) corresponden a que el utilizar este tipo de datos provocará que el modelo tenga sesgos o inequidades hacia estas variables.

Permítame elaborar: imagina que tenemos un modelo que predice si una persona en busca de empleo no encontrará uno en los siguientes siete meses. Además, imagina que la acción asociada a esta predicción consiste en que el estado le dará una ayuda económica mensual a estas personas.

Nuestra intuición podría llevarnos a pensar que sería equivocado incluir como variables predictoras el sexo y la edad de las personas, debido a que provocaremos que el modelo aprenda inequidades que naturalmente existen entre estas variables para conseguir un empleo. Es decir, un hombre entre 25 y 30 años tiene más posibilidades de encontrar un empleo que una mujer entre 40 y 50 años.

Siguiendo esta ruta de pensamiento, imagina que no ocupamos estas variables en nuestro modelo predictivo con el afán de evitar estos sesgos, ¿considera usted que únicamente por no incluir estas variables el modelo no tendrá inequidades para las mujeres u hombres, o para los que están entre ciertos rangos de edad? Me encantaría decirle que sí, que con esta simple omisión se pueden eliminar los sesgos.

Lo cierto es que, las inequidades en la vida “real” están más arraigadas a tan solo decir si uno es mujer u hombre, los sesgos se inmiscuyen hasta en las ranuras más delgadas de nuestra sociedad y se identifican en los comportamientos físicos y digitales que tenemos. Esta es la razón por la cual no incluir este tipo de variables no elimina sesgos en los modelos de ML y, para el caso, tampoco en los modelos que no ocupan componentes de ML. Y esta es la razón por la cual cuantificar estos sesgos se vuelve un componente altamente relevante y necesario en problemas de ciencia de datos predictivos.

En ocasiones no es posible ocupar este tipo de variables por alguna cuestión legal, y estos deben de ser los únicos casos en los que no debemos incluir este tipo de variables en los modelos. En el resto de los casos, debemos estar ocupando los grupos de interés en los modelos predictivos para incluir toda la información posible del contexto del problema.

Permítame ser clara, si se incluyen o no variables sensibles al modelo siempre es posible cuantificar los sesgos e inequidades que el modelo está teniendo para estos grupos. La cuantificación nos permitirá identificar en qué valores del grupo tenemos ventajas o desventajas y, en consecuencia, poder aplicar metodologías que nos harán mitigar dichos sesgos.

Asimismo, cuantificar estos sesgos e inequidades nos permitirá ser transparentes tanto con el tomador de decisiones como con las personas a las que impactamos con el modelo, brindando información relevante que nos permite tomar mejor decisiones y tener más confianza en los modelos de ML predictivos.

Entradas recientes

  • Política

Congreso deja ‘congeladas’ iniciativas sobre mariguana, jornada laboral y maltrato animal

El Congreso de la Unión está por renovarse y arrastra desde 2018 iniciativas que nunca vieron la luz, como la…

6 mayo, 2024
  • Opinión

El gran reto del 2024: proteger la democracia ante las deepfakes

Año crucial para la democracia mundial. Mientras las deepfakes desafían la integridad informativa, TechAccord lidera la lucha contra la manipulación…

6 mayo, 2024
  • The Guardian

Casas akiya: por qué Japón tiene nueve millones de viviendas vacías

Cifras revelan que casi el 14% de las casas de Japón son akiya, es decir, están vacías, pero esta oferta…

6 mayo, 2024
  • Política

Congreso de Hidalgo prohíbe matrimonio forzado por usos y costumbres

En el dictamen respecto al matrimonio forzado, se destaca que 332 adolescentes vivían casadas o en unión libre hasta el…

5 mayo, 2024
  • Actualidad

Lista de resultados del Sorteo Zodiaco 1656 de HOY de la Lotería Nacional

La lista de resultados del Sorteo Zodiaco 1656 que se jugó este domingo 5 de mayo fue publicada por la…

5 mayo, 2024
  • Política

Caso Salvador Rangel es usado como instrumento político: CEM

La CEM señaló que el caso del obispo Salvador Rangel desató la operación de "miles de bots para atacar a…

5 mayo, 2024