Nvidia presenta Fugatto, un revolucionario motor de IA capaz de crear y editar música y voces a partir de texto

Nvidia presenta Fugatto, un revolucionario motor de IA capaz de crear y editar música y voces a partir de texto


Nvidia ha desarrollado Fugatto, un nuevo modelo de inteligencia artificial (IA) que puede generar y transformar cualquier mezcla de música, voces y sonidos mediante indicaciones de texto. La compañía promete que el recurso es capaz de crear composiciones melódicas “nunca antes escuchadas”.

Fugatto (Foundational Generative Audio Transformer Opus 1) es resultado de un trabajo de investigación elaborado por los ingenieros de la big tech. Rafael Valle, gerente de investigación de audio aplicado en Nvidia, indica que “la intención era crear un motor de IA que pudiera entender y producir piezas de audio tal como lo hacen los humanos”.

¿Cómo funciona el nuevo modelo de IA de Nvidia?

Fugatto es el primer modelo de IA generativa fundamental con características emergentes, según los investigadores. Es capaz de atender diferentes tareas incluidas en una sola indicación gracias a la interacción de diversas habilidades entrenadas de forma individual. “Se trata de un gran avance hacia un futuro en el que el aprendizaje multitarea no supervisado en la síntesis y transformación de audio surge a partir de la escala de datos y modelos”, explica Valle.

El motor musical está habilitado con tecnologías de modelado de voz, vocodificación y comprensión de audio. Utiliza 2,500 millones de parámetros y fue capacitado en un banco de sistemas Nvidia DGX que incluyen 32 GPU H100 Tensor Core. Los ingenieros emplearon una técnica conocida como ComposableART que faculta al algoritmo para combinar instrucciones y pequeños grupos de datos que aprendió por separado. En consecuencia, el sistema puede procesar solicitudes y respuestas complejas. “Fugatto puede hacer que una trompeta ladre o un saxofón maúlle. Genera voces de canto de alta calidad y sonidos que cambian con el tiempo. Facilita la creación de paisajes sonoros nunca antes vistos”, afirman sus desarrolladores.


Nvidia%25201541929519 Nvidia presenta Fugatto, un revolucionario motor de IA capaz de crear y editar música y voces a partir de texto

El nuevo modelo de IA de Nvidia es capaz de generar descripciones detalladas de imágenes, entender el humor detrás de un meme y realizar razonamientos de codificación.


Nvidia asegura que su nueva IA ha sido entrada con “un conjunto de datos combinados que contiene millones de muestras de audio”. No dio detalles sobre las fuentes de estos materiales. Se limitó a exponer que el trabajo de recolección de información, investigación y desarrollo duró más de un año.

La empresa dirigida por Jen-Hsun Huang ha sido señalada en el pasado por haber utilizado sin autorización contenidos para entrenar sus modelos de IA. La organización de análisis Proof News halló que los subtítulos de 173,536 videos de YouTube, extraídos de más de 48,000 canales, fueron usados sin consentimiento por firmas como Anthropic, Nvidia, Apple y Salesforce para capacitar a sus algoritmos inteligentes. El sitio de videos de Google tiene normas explícitas que prohíben esta práctica.

Nvidia no ha revelado si Fugatto estará disponible para el público en general. Pese a ello, indica que “los productores musicales podrían usar el modelo para crear el prototipo de una canción. Una agencia de publicidad tendría la posibilidad de aplicar esta tecnología para adaptar una campaña a múltiples regiones o situaciones, aplicando diferentes acentos y emociones a las voces en off. Además, los desarrolladores de videojuegos podrían usar el modelo para modificar los recursos pregrabados en su título para que se adapten a las acciones cambiantes. Todo a partir de instrucciones de texto y entradas de audio opcionales”.



Source link

Share this content:

Publicar comentario