LA INTELIGENCIA ARTIFICIAL Y LOS MOTORES DE BÚSQUEDA

Cada vez son más comunes los motores de búsqueda de Internet en los que lo que se quiere encontrar no son páginas web sino personas. Los portales de empleo o de búsqueda de pareja son buenos ejemplos. El empleo de la inteligencia artificial en estos motores puede favorecer patrones discriminatorios, aprendidos por algoritmos que no están programados para compensar o corregir prejuicios humanos.

El investigador Carlos Castillo, director de la Unidad de Data Science del centro tecnológico catalán Eurecat, pone como ejemplo el caso de un portal de empleo y explica que “si hay 100 perfiles de hombres y mujeres igualmente cualificados y en los primeros resultados del buscador solo aparecen hombres, tenemos un problema”.

Combatir la discriminación por sexo, raza, edad o cualquier otro motivo en las búsquedas en Internet es uno de los grandes retos de los científicos. Hay diversas maneras de afrontarlo, aunque este ámbito de investigación todavía está en sus inicios.

Los métodos para corregir la discriminación pueden hacerse en bloque, es decir, corrigiéndola para grupos enteros de personas, o bien individuo a individuo. Y se pueden aplicar antes de procesar los datos, introduciendo información no sesgada en el algoritmo; a posteriori, corrigiendo la lista obtenida; y lo más difícil, creando un algoritmo que sea no discriminatorio, o que lo sea lo mínimo posible (porque siempre va a tener cierta parcialidad, al ser humanos quienes lo diseñan). Presentamos a continuación algunos de los métodos más usados.

Reordenar los resultados en pequeños subgrupos

En este caso el reordenamiento se hace ítem a ítem. En concreto, divide la lista de resultados en pequeños subgrupos, y compara la proporción del grupo “protegido” (mujeres, personas mayores, etcétera) con la proporción de ese mismo grupo dentro del ránking general. Si, por ejemplo, en el top 5 de la lista hay solo una mujer, mientras que en los 40 resultados de la búsqueda hay un 40% de mujeres, el algoritmo coge un perfil de mujer posterior al puesto quinto y lo recoloca para que el porcentaje femenino en el top 5 sea más parecido al porcentaje de la lista completa, y así sucesivamente.

Es el sistema que utiliza el proyecto FA*IR, creado por un equipo de la Unidad de Data Science de Eurecat, la Universidad Pompeu Fabra de Barcelona y la Universidad Técnica de Berlín. El algoritmo corrige a posteriori la discriminación en la búsqueda de personas online por razones de género, procedencia o apariencia física.

Los científicos han utilizado datos de ofertas de empleo, de reincidencia de presos y de rankings de admisión a universidades para detectar patrones de discriminación. Con ellos, han creado un algoritmo de búsqueda que incorpora “un mecanismo de acción positiva” para “reorganizar los resultados y evitar la discriminación sin afectar la validez del ranking”, explica Castillo, uno de los artífices del proyecto. Eso sí, matiza, “no hace cambios radicales, y la reordenación se hace entre perfiles similares. En cierto modo deshace empates”.

El proyecto FA*IR ha sido uno de los ganadores de las becas de 50.000 euros que otorga anualmente la comunidad internacional Data Transparency Lab –promovida por Telefónica, Mozilla y el MIT, entre otros-, que fomenta la transparencia y la protección de los datos en Internet.

El objetivo de los investigadores ahora es desarrollar una “herramienta de búsqueda justa” (que directamente da una lista no discriminatoria), basada en el algoritmo ya diseñado (que corrige los sesgos a posteriori). Ninguna empresa u organización utiliza aún el algoritmo diseñado, y precisamente el objetivo es desarrollar el nuevo como software libre dentro de un paquete de software conocido para que cualquier entidad pueda usarlo.

Eliminar el “impacto dispar”

El “impacto dispar”, un concepto de la legislación laboral de EE UU, es el diferente efecto que produce un mismo algoritmo sobre grupos distintos de personas. Se diferencia del “trato dispar” en que este es intencionado y directo, mientras que el impacto dispar es indirecto. Puede producirse aunque no haya discriminación como tal; de hecho, ocurre cuando se trata a todo el mundo de la misma forma. Por ejemplo, en el caso de las pruebas físicas para los bomberos, que perjudican a las mujeres. Eso sí, para que se considere “impacto dispar” no puede haber una relación directa entre la prueba y el correcto desempeño laboral.

El método consiste en “reparar” a posteriori las puntuaciones del grupo protegido (el que está discriminado) para que estén distribuidas de la misma forma que las del grupo no protegido. Es la técnica diseñada por el equipo de Suresh Venkatasubramanian, profesor de Informática de la Universidad de Utah (EE UU). Su grupo, cuenta, ha hablado con algunas entidades interesadas en aplicar el método, pero ninguna ha llegado a utilizarlo.

Introducir restricciones proequidad

Según la regla del 80%, establecida en la legislación laboral estadounidense, se puede considerar que hay discriminación, de género en este caso, cuando la ratio mujeres candidatas/mujeres seleccionadas es menos de un 80% de la ratio hombres candidatos/hombres seleccionados. Es decir, si se seleccionan muchas menos mujeres que hombres en proporción a los candidatos que había de cada sexo.

Las restricciones proequidad pretenden garantizar que se cumple esa regla del 80% en categorías absolutas, como hombre/mujer. En otras que tienen valores continuos, como el peso corporal o la edad, la idea es que no haya una correlación entre los candidatos seleccionados y esa característica.

Un sistema creado por un grupo del Instituto Max Planck de Sistemas de Software (Kaiserlautern, Alemania), en el que hay una española, Isabel Valera, introduce las restricciones matemáticas en el periodo de entrenamiento o aprendizaje del algoritmo (cuando se le introducen búsquedas ya realizadas para que tome ejemplo), de modo que cuando este se aplica no analiza datos sensibles como el género o la raza.