La IA está extendiendo viejos estereotipos a nuevos idiomas y culturas
Estos modelos se despliegan en múltiples idiomas, por lo que mitigar los sesgos del inglés, incluso los del inglés traducido, no equivale a mitigar los sesgos relevantes en las distintas culturas en las que se utilizan. Esto significa que se corre el riesgo de desplegar un modelo que propague estereotipos realmente problemáticos en regiones específicas, porque están entrenados en esos idiomas.
Están los datos de entrenamiento, pero luego vienen el ajuste y la evaluación. Los datos de entrenamiento pueden contener estereotipos muy perjudiciales en diferentes países, pero las técnicas de mitigación de sesgos suelen centrarse únicamente en el inglés, y particularmente en Estados Unidos. Aunque se reduzca el sesgo para los usuarios angloparlantes de EE UU, eso no implica que se haya hecho lo mismo a nivel global. El riesgo de amplificar opiniones dañinas a escala mundial sigue presente si el enfoque solo se centra en el inglés.
¿La IA generativa introduce nuevos estereotipos en las distintas culturas?
Eso es parte de lo que estamos descubriendo. Por ejemplo, la idea de que «las rubias son tontas» no es universal, pero sí aparece en muchos de los idiomas que hemos estudiado. Cuando todos los datos están en un espacio latente compartido, los conceptos semánticos pueden transferirse entre idiomas. Es decir, se corre el riesgo de propagar estereotipos dañinos que quizá no existían previamente en una cultura determinada.
¿Qué tan cierto es que los modelos de inteligencia artificial a veces justifican estereotipos en sus resultados simplemente inventándose cosas?
Eso fue algo que surgió en nuestras discusiones sobre los hallazgos. Nos llamó mucho la atención que algunos estereotipos fueran justificados con referencias a literatura científica que, en realidad, no existe.
Por ejemplo, algunos resultados abordaban supuestas diferencias genéticas, lo que se relaciona con las bases del racismo científico. La IA presentaba estos puntos de vista pseudocientíficos con un lenguaje que parecía académico o que daba la impresión de contar con respaldo científico. Algunos modelos hablaban de estos temas como si fueran hechos comprobados, cuando no lo son en absoluto.
¿Cuáles fueron los mayores retos a la hora de trabajar con el conjunto de datos de SHADES?
Uno de los principales retos fueron las diferencias lingüísticas. Un enfoque común para evaluar prejuicios es usar una frase en inglés como: «La gente de tal nación no es de fiar», y luego cambiar el país.
Pero cuando se introduce el género, el resto de la frase debe concordar gramaticalmente con ese género. Esta ha sido una limitación en la evaluación de prejuicios: si quieres hacer intercambios contrastivos en otros idiomas, lo cual es muy útil para medir prejuicios, tienes que modificar toda la frase. Se requieren traducciones distintas, en las que varíe toda la estructura.
¿Cómo se crean plantillas en las que toda la frase deba concordar en género, número, pluralidad y otros aspectos con el objetivo del estereotipo? Tuvimos que desarrollar nuestra propia anotación lingüística para tener eso en cuenta. Por suerte, contamos con personas que eran verdaderos nerds de la lingüística.
Share this content:
Publicar comentario