La música AI se está apoderando de la tecnología más importante.
Google puso a disposición del público MusicLM, un modelo de lenguaje que puede generar nueva música a partir de indicaciones de texto, el mes pasado.
Meta, la empresa matriz de Facebook, presentó MusicGen, su propio generador de IA de texto a música. La compañía afirma que MusicGen ha sido entrenado en 20 000 horas de música con licencia, incluidas 390 000 pistas de solo instrumentos de ShutterStock y Pond5 y 10 000 pistas de "alta calidad".
Sin embargo, los gigantes de la industria de la tecnología y la informática, como Meta y Google, no son los únicos que investigan la música con IA.
"The Deep and Reinforcement Learning Group" de Microsoft Research Asia (MSR Asia) en China lanzó Muzic en 2019.
Microsoft Research Asia, de "clase mundial", tiene oficinas en Pekín y Shanghái. El MSR Asia, fundado en 1998, "realiza investigaciones básicas y aplicadas en áreas centrales para la estrategia a largo plazo de Microsoft y la visión informática futura", según el gigante tecnológico.
Además de la investigación de AI Music, "The Deep and Reinforcement Learning Group" está trabajando en modelos de texto a voz basados en redes neuronales, traducción automática neuronal y más.
"Muzic" ha creado mucha música AI.
Los proyectos notables incluyen:
1) Deeprapper Este proyecto de Muzic puede amordazar a los titulares de derechos musicales.
Los científicos de Muzic crearon DeepRapper, un "generador de rap" alimentado por inteligencia simulada, en 2021.
El artículo de desarrollo y prueba del modelo afirma que DeepRapper es el primer sistema de inteligencia artificial para componer rap con rimas y ritmos.
Proceden: los raps de DeepRapper son únicos y de alta calidad. Aquí está el código GitHub de DeepRapper.
El estudio afirma: Los esfuerzos de rap anteriores se centraron en las letras que riman, pero no en los ritmos rítmicos, que son esenciales para la interpretación del rap. DeepRapper, un marco de edad de rap basado en Transformer que muestra rimas y ritmos, se desarrolla en este estudio.
Los investigadores construyeron "una tubería de extracción de datos para recopilar un conjunto de datos de rap a gran escala, que incluye una gran cantidad de canciones de rap con letras alineadas y ritmos rítmicos" para construir el sistema DeepRapper "ya que no hay un conjunto de datos de rap disponible con ritmos rítmicos".
Utilizaron un "modelo de lenguaje autorregresivo basado en transformadores" para "modelar cuidadosamente" rimas y ritmos.
Rastreamos muchas canciones de rap con letras y audio cantado de la web para extraer un conjunto de datos de rap a gran escala.
"una tubería de minería de datos [para] recopilar un conjunto de datos de rap a gran escala para el modelado de ritmo" se detalla más adelante en el documento (ver gráfico).
Rastreamos muchas canciones de rap con letras y audios cantados de la Web antes de extraer un gran conjunto de datos de rap.
Rastreamos los tiempos de inicio y finalización de cada oración de la letra que coincide con la música "para garantizar que la letra y el audio se puedan alinear en el nivel de la oración, lo que es beneficioso para nuestra alineación posterior del ritmo a nivel de palabra".
Microsoft, un competidor, realiza una amplia investigación de AI Music. La composición de canciones, la generación de letras a melodías, la generación de texto impulsada por IA y la generación de música se encuentran entre las áreas de investigación del proyecto.
El proyecto "Muzic" de Microsoft utiliza aprendizaje profundo e inteligencia artificial para analizar y crear música.
El diagrama de su página de inicio está a continuación:
Se publicó un manuscrito, aún en revisión, con los resultados de la investigación.
Los investigadores creen que su tecnología de texto a música "divide la tarea en dos etapas". La primera etapa es "comprensión de texto a atributo" y la segunda es "generación de atributo a música".
ChatGPT "sintetiza y refina" el texto durante la "comprensión de texto a atributo".
El artículo dice que MuseCoco "puede admitir múltiples formas de controlar" los resultados "debido al diseño de dos etapas".
Explica: Los no músicos pueden usar el modelo de la primera etapa para convertir sus descripciones textuales intuitivas en atributos profesionales, mientras que los músicos pueden ingresar directamente los valores de los atributos en la segunda etapa para generar composiciones.
"Por lo tanto", dice Muzic, "MuseCoco permite una experiencia de usuario que es más inclusiva y adaptable que los sistemas que generan música directamente a partir de descripciones de texto".
El artículo describe el modo de entrenamiento. El modelo MusicGen AI de Meta puede generar clips de audio de 12 segundos a partir de indicaciones de texto utilizando 20.000 horas de música con licencia.
Los científicos de Muzic recopilaron conjuntos de datos MIDI de "fuentes en línea" "Para preparar la etapa característica de la era de la música y evaluar nuestra técnica propuesta".
Después del "filtrado de datos para eliminar muestras duplicadas y de mala calidad", tenían 947.659 muestras MIDI.
El conjunto de datos MetaMIDI (MMD), "una colección a gran escala de 436.631 archivos y metadatos MIDI", es uno de ellos.
A través del raspado web, el MMD "contiene metadatos de artistas y títulos para 221 504 archivos MIDI y metadatos de género para 143 868 archivos MIDI".
Publicar un comentario