Meta presenta SeamlessM4T, un avanzado modelo de IA capaz de traducir y transcribir voz y texto en 101 idiomas
Meta ha creado su propia versión moderna de la Torre de Babel con SeamlessM4T, un modelo de inteligencia artificial capaz de traducir y transcribir voz y texto en 101 idiomas. Así, el sueño del pez de Babel, el traductor de la famosa franquicia La Guía del Autoestopista Galáctico, podría estar más cerca de convertirse en realidad.
Esta tecnología, desarrollada por Meta, la compañía de Mark Zuckerberg, propietaria de Facebook, Instagram y WhatsApp, promete conjurar la maldición de la comunicación multilingüe. Según publica la revista Nature, el modelo permite traducciones instantáneas de voz a voz o de texto a voz, y viceversa, imitando la expresión y el tono de los interlocutores.
SeamlessM4T (Traducción de Máquinas Multilingüe y Multimodal, por sus siglas en inglés) supera a los tradicionales sistemas de traducción en cascada al integrar todo en un modelo unificado, mejorando la precisión entre un 8 % y un 23 %. Además, es notablemente más robusto frente al ruido de fondo y las variaciones en el habla, con una mejora del 50 % en su capacidad para adaptarse a estos desafíos.
“Evaluamos SEAMLESSM4T respecto a la toxicidad añadida y el sesgo de género para evaluar la seguridad de las traducciones. En el caso de la toxicidad, incluimos dos estrategias de mitigación, que funcionan ya sea en el entrenamiento o en el momento de la inferencia», dice la publicación ‘Traducción conjunta de voz y texto para hasta 100 idiomas’, de Nature.
El modelo, liderado por la investigadora principal Marta Costa-Jussà, de la división de inteligencia artificial de Meta (FAIR, Foundational AI Research), fue entrenado utilizando un millón de horas de audio de habla abierta, lo que le permite traducir incluso combinaciones de idiomas no incluidas explícitamente en su entrenamiento.
Meta ha decidido poner el modelo y sus datos a disposición del público para uso no comercial, con el fin de promover la investigación y el desarrollo en el campo de la traducción de voz.
A pesar de sus avances, SeamlessM4T enfrenta retos importantes. En contextos críticos como la medicina y el ámbito legal, donde la precisión es vital, aún se necesita perfeccionar aspectos como la traducción de nombres propios, expresiones coloquiales y cuestiones relacionadas con sesgos de género y el reconocimiento de acentos. No obstante, esta tecnología marca un paso crucial hacia una comunicación global más fluida, manteniendo el liderazgo de Meta en el ámbito de las comunicaciones personales.
Horas de audio de discursos y traducciones humanas
La traducción automática ha avanzado significativamente en las últimas décadas, en gran parte gracias a la introducción de redes neuronales entrenadas con grandes volúmenes de datos. Si bien existen abundantes datos para los idiomas más hablados, como el inglés, estos son escasos para muchos otros, lo que ha limitado el alcance de las traducciones automáticas. «Esto afecta a los idiomas menos representados en Internet», señala Allison Koenecke, científica computacional de la Universidad de Cornell en un artículo publicado en News & Views.
El equipo de Meta aprovechó su experiencia previa en traducción de voz a voz, así como un proyecto llamado No Language Left Behind, enfocado en ofrecer traducción de texto a texto para unos 200 idiomas. A través de esta experiencia, los investigadores descubrieron que hacer los sistemas de traducción multilingües puede mejorar el rendimiento, incluso con idiomas con poca disponibilidad de datos, aunque el motivo detrás de este fenómeno aún no está claro.
Para entrenar el modelo, el equipo recopiló millones de horas de audio de discursos, junto con sus traducciones humanas, provenientes de Internet y otras fuentes, como los archivos de las Naciones Unidas. También se utilizaron transcripciones de esos discursos.
Además, se emplearon datos confiables para enseñar al modelo a identificar pares de contenido correspondiente, lo que permitió emparejar alrededor de medio millón de horas de audio con texto y asociar automáticamente fragmentos de un idioma con su contraparte en otros.
Share this content:
Publicar comentario