Tendencias Meringe abril 8, 2025 0 Comentarios

Amazon presenta Nova Sonic, un modelo de voz basado en IA

Amazon anunció Nova Sonic, un modelo de inteligencia artificial (IA) capaz de procesar y generar voz de forma nativa con un sonido más natural. La propuesta promete superar el rendimiento de productos similares de OpenAI y Google en pruebas de tiempo de respuesta, reconocimiento de voz y calidad conversacional.

La compañía fundada por Jeff Bezos afirma que su nuevo algoritmo “simplifica el desarrollo de aplicaciones de voz, como la automatización de llamadas de atención al cliente y agentes conversacionales, en una amplia variedad de sectores como viajes, educación, salud, entretenimiento y más”.

Amazon-AI-Web-Browsers-Business-2206403455 Amazon presenta Nova Sonic, un modelo de voz basado en IA

El nuevo laboratorio de Amazon presenta su primer gran fruto: agentes de IA avanzados

Dirigido por un antiguo ejecutivo de OpenAI, el laboratorio de inteligencia artificial de Amazon se centra en las capacidades de toma de decisiones de la próxima generación de agentes de software, y toma prestados conocimientos de los robots físicos.

Los especialistas de Amazon explican que los métodos tradicionales para crear aplicaciones de voz requieren la integración de múltiples modelos independientes, especializados en tareas como reconocimiento de voz, comprensión del lenguaje y conversión de texto a voz. Esta fragmentación, indican, complica el desarrollo e impide conservar el contexto acústico y los matices del habla necesarios para lograr interacciones naturales.

En contraste, Nova Sonic destaca por su arquitectura unificada, que integra transcripción, comprensión y generación vocal. Esto le permite adaptar sus respuestas tanto al contexto acústico como a las características sonoras de las voces entrantes. Según Amazon, el modelo “comprende los matices de la conversación humana, incluyendo pausas y vacilaciones naturales del hablante. Además, espera para intervenir en el momento oportuno y maneja eficazmente las interrupciones”.

X content

This content can also be viewed on the site it originates from.

El nuevo sistema también transcribe la voz del usuario a texto, facilitando a los desarrolladores la creación de agentes conversacionales más sofisticados, capaces de interactuar con otras herramientas y APIs.

Amazon desafía a OpenAI

Amazon asegura que la tasa de error de Nova Sonic es considerablemente menor en comparación con otras IA similares. En la evaluación Multilingual LibriSpeech, que mide el reconocimiento de voz en distintos idiomas y dialectos, el modelo alcanzó una tasa de error de palabras (WER, por sus siglas en inglés) de 4.2% en promedio en inglés, francés, italiano, alemán y español. Esto equivale a que aproximadamente cuatro de cada 100 palabras generadas por el modelo difieren respecto a una transcripción humana en dichos idiomas.

Asimismo, en el benchmark Augmented Multiparty Interaction, que analiza interacciones de alto volumen con múltiples interlocutores, la nueva IA fue un 46.7% más precisa en términos de WER que el modelo de transcripción GPT-4o de OpenAI. Nova Sonic también destaca por su velocidad, con una latencia percibida promedio de 1.09 segundos, lo que supera a GPT-4o, que responde en 1.18 segundos, según un análisis comparativo de Artificial Analysis.

La herramienta ya está disponible a través de Bedrock, la plataforma de Amazon para el desarrollo de aplicaciones empresariales de IA, mediante una nueva API de streaming bidireccional. De acuerdo con la empresa, Nova Sonic se posiciona como el modelo de voz más rentable del mercado, con un costo 80% menor frente a GPT-4o.

El lanzamiento de Nova Sonic se enmarca en una ambiciosa estrategia de Amazon para recuperar terreno en la carrera por liderar el mercado de la IA. En los últimos meses, la compañía ha intensificado sus esfuerzos por reducir la brecha con otras big tech mediante mejoras a sus servicios. Un ejemplo reciente es Alexa+, una versión actualizada del asistente virtual que incorpora IA avanzada para sostener conversaciones en lenguaje natural, realizar análisis multimodales y demostrar comprensión contextual.

Source link

Share this content: