Altera la música como Midjourney y ChatGPT hacen imágenes y texto.
El grupo de investigación de Audiocraft en Meta ha lanzado MusicGen, un modelo de lenguaje de aprendizaje profundo de código abierto que puede generar nueva música a partir de señales de texto y alinearse con una canción existente, según The Decoder. Al igual que ChatGPT para audio, usted especifica el estilo de música, opcionalmente inserta una pista existente y luego hace clic en "Generar". Después de 160 segundos, reproduce una breve pieza de música nueva basada en las indicaciones de texto y la canción.
El sitio Embracing Face AI de Facebook te permite expresar tu música con algunos modelos como "una melodía pop de los 80 con tambores pesados y cojines de sintetizador detrás de escena". Después de eso, puede "condicionar" cualquier canción de hasta 30 segundos de duración con controles para seleccionar un segmento. Después de eso, presione crear para obtener una muestra de 12 segundos de alta calidad.
El equipo se entrenó con 20 000 horas de música con licencia, incluidas 10 000 grabaciones de alta calidad de un conjunto de datos interno, Pond5 y Shutterstock. El tokenizador de audio EnCodec de 32Khz de Meta aceleró el procesamiento de pistas de música más pequeñas. "A diferencia de MusicLM, MusicGen no necesita una representación semántica autodirigida [y tiene] solo 50 avances de retroceso automático por segundo de sonido", tuiteó el especialista en ML de Embracing Face, Ahsen Khaliq.
Google lanzó MusicLM el mes pasado, pero MusicGen parece producir resultados ligeramente mejores. Los investigadores usan una página de muestra para comparar la salida de MusicGen con MusicLM, Musai y dos modelos adicionales. Se puede operar localmente en una GPU con al menos 16 GB de RAM y viene en cuatro tamaños de modelo, desde pequeño (300 millones de parámetros) hasta grande (3300 millones), con el mayor potencial para música compleja.