El modelo de audio con inteligencia artificial «Fugatto» de Nvidia sintetiza sonidos que nunca han existido

El modelo de inteligencia artificial generativa Fugatto, desarrollado por Nvidia, puede crear sonidos completamente nuevos.

"Fugatto", un nuevo generador de audio de inteligencia artificial (IA) de Nvidia, puede sintetizar ruidos, voz o música en respuesta a una entrada de texto. En comparación con otros modelos de audio de IA generativa, Fugatto se destaca gracias a sus enfoques de nivel de inferencia, que le permiten alterar cualquier mezcla de audio e incluso generar sonidos nunca antes vistos.

Fugatto, una "navaja suiza para el sonido", puede componer música utilizando instrucciones inusuales, como hacer un gruñido de saxofón o un maullido de trompeta. Nvidia afirma que su modelo puede generar todo lo que un usuario pueda imaginar. "Pulsos graves profundos y retumbantes combinados con chirridos digitales intermitentes y agudos, como el sonido de una enorme máquina consciente que se despierta". es uno de los efectos de sonido únicos que la empresa puede crear basándose en una descripción.

El anuncio finalizará en diecisiete segundos. El modelo puede alterar elementos musicales, como eliminar el ruido de fondo, agregar nuevos instrumentos o alterar la tonalidad. Incluso puede cambiar el acento de alguien o darle un tono tranquilo o furioso utilizando el fugatto para alterar el sonido de su discurso.

"Nuestro objetivo era desarrollar un modelo que pudiera comprender y producir sonido de la misma manera que los humanos", afirmó Rafael Valle, gerente de investigación de audio aplicado en Nvidia, compositor, director de orquesta y uno de los investigadores responsables de Fugatto. "Con Fugatto, estamos allanando el camino para un futuro en el que los datos y modelos a gran escala permitan el aprendizaje multitarea no supervisado para la síntesis y transformación de audio".

El desarrollo de un conjunto de datos mixto con millones de muestras de audio para el entrenamiento fue extremadamente desafiante, como afirma la empresa, al intentar crear un modelo tan robusto. Nvidia afirma que el equipo utilizó una técnica multidimensional para generar datos e instrucciones que permitieron al modelo realizar una gama más amplia de trabajos, sin requerir datos adicionales y con mayor precisión.

El modelo aún no está disponible para el público, y la empresa no ha dicho cuándo ni cómo se pondrá a disposición de un público más amplio. Puede ver lo que la IA generativa ética es capaz de hacer en el futuro en una página web con ejemplos que demuestran sus usos.

El modelo de audio con inteligencia artificial «Fugatto» de Nvidia sintetiza sonidos que nunca han existido

Publicar un comentario

Kendrick Lamar - Ken & Friends' The Pop Out (Live June 19th, 2024) - 2x LP Vinyl

Entrada destacada

W la letra sobre su presentación en el Festival dominicano

Formulario de contacto