MICROSOFT ESTÁ DESARROLLANDO UN GENERADOR DE RAP AI, MÁS PROFUNDO, ENTRENADO EN UN GRAN CONJUNTO DE CANCIONES 'ARRASTRE' DE LA WEB

 

La música AI se está apoderando de la tecnología más importante.


Google puso a disposición del público MusicLM, un modelo de lenguaje que puede generar nueva música a partir de indicaciones de texto, el mes pasado.


Meta, la empresa matriz de Facebook, presentó MusicGen, su propio generador de IA de texto a música. La compañía afirma que MusicGen ha sido entrenado en 20 000 horas de música con licencia, incluidas 390 000 pistas de solo instrumentos de ShutterStock y Pond5 y 10 000 pistas de "alta calidad".


Sin embargo, los gigantes de la industria de la tecnología y la informática, como Meta y Google, no son los únicos que investigan la música con IA.


"The Deep and Reinforcement Learning Group" de Microsoft Research Asia (MSR Asia) en China lanzó Muzic en 2019.


Microsoft Research Asia, de "clase mundial", tiene oficinas en Pekín y Shanghái. El MSR Asia, fundado en 1998, "realiza investigaciones básicas y aplicadas en áreas centrales para la estrategia a largo plazo de Microsoft y la visión informática futura", según el gigante tecnológico.


Además de la investigación de AI Music, "The Deep and Reinforcement Learning Group" está trabajando en modelos de texto a voz basados en redes neuronales, traducción automática neuronal y más.


"Muzic" ha creado mucha música AI.


Los proyectos notables incluyen:


1) Deeprapper Este proyecto de Muzic puede amordazar a los titulares de derechos musicales.


Los científicos de Muzic crearon DeepRapper, un "generador de rap" alimentado por inteligencia simulada, en 2021.


El artículo de desarrollo y prueba del modelo afirma que DeepRapper es el primer sistema de inteligencia artificial para componer rap con rimas y ritmos.


Proceden: los raps de DeepRapper son únicos y de alta calidad. Aquí está el código GitHub de DeepRapper.


El estudio afirma: Los esfuerzos de rap anteriores se centraron en las letras que riman, pero no en los ritmos rítmicos, que son esenciales para la interpretación del rap. DeepRapper, un marco de edad de rap basado en Transformer que muestra rimas y ritmos, se desarrolla en este estudio.


Los investigadores construyeron "una tubería de extracción de datos para recopilar un conjunto de datos de rap a gran escala, que incluye una gran cantidad de canciones de rap con letras alineadas y ritmos rítmicos" para construir el sistema DeepRapper "ya que no hay un conjunto de datos de rap disponible con ritmos rítmicos".


Utilizaron un "modelo de lenguaje autorregresivo basado en transformadores" para "modelar cuidadosamente" rimas y ritmos.


Rastreamos muchas canciones de rap con letras y audio cantado de la web para extraer un conjunto de datos de rap a gran escala.


"una tubería de minería de datos [para] recopilar un conjunto de datos de rap a gran escala para el modelado de ritmo" se detalla más adelante en el documento (ver gráfico).


Rastreamos muchas canciones de rap con letras y audios cantados de la Web antes de extraer un gran conjunto de datos de rap.


Rastreamos los tiempos de inicio y finalización de cada oración de la letra que coincide con la música "para garantizar que la letra y el audio se puedan alinear en el nivel de la oración, lo que es beneficioso para nuestra alineación posterior del ritmo a nivel de palabra".


Microsoft, un competidor, realiza una amplia investigación de AI Music. La composición de canciones, la generación de letras a melodías, la generación de texto impulsada por IA y la generación de música se encuentran entre las áreas de investigación del proyecto.


El proyecto "Muzic" de Microsoft utiliza aprendizaje profundo e inteligencia artificial para analizar y crear música.


El diagrama de su página de inicio está a continuación:

Los investigadores extrajeron más datos. Su "tubería de extracción de datos" arrojó dos conjuntos de datos más, según el trabajo de investigación: 1) canciones que no son de rap con ritmos alineados, que pueden tener un conjunto de datos más grande que las canciones de rap debido a su generalidad más amplia; 2) palabras puras, que pueden ser incluso más extensas que las canciones que no son de rap.

En la "etapa previa al entrenamiento", el modelo DeepRapper se entrenó en los dos conjuntos de datos. "Afinar nuestro modelo pre-entrenado en las canciones de rap con ritmos alineados", dicen.


"Tanto las evaluaciones objetivas como las subjetivas demuestran que DeepRapper genera raps de alta calidad con buenas rimas y ritmos", concluyen los investigadores.

Aquí se muestran 5.000 ejemplos aleatorios.

Los investigadores utilizaron Google Translate para traducir muestras de mandarín al inglés.

(¿La primera letra del sample?) Esta música calmará tu insomnio médico ya que tenemos la piel amarilla y la sangre caliente.

“Gracias al diseño de DeepRapper, podemos construir otro sistema de canto de rap para cantar los raps de acuerdo con las rimas y los ritmos, que dejamos como trabajo futuro”, concluye el informe.

Los modelos de IA generativa se entrenan en conjuntos de datos masivos descargados de Internet.

A los titulares de derechos de música no les gusta esto porque los modelos de IA de música con derechos de autor pueden violar sus derechos. La explicación abierta de Microsoft de cómo se recopilan los datos de DeepRapper para su estudio es intrigante.

El estudio global de rimas y rap de Microsoft es intrigante.

Microsoft tiene una patente estadounidense para un "bot de chat de rima participativa sintetizada por voz", que parece no estar relacionado con el concepto DeepRapper desarrollado por el equipo de Muzic en China.

La tecnología "Rap-bot" fue inventada por investigadores de Microsoft con sede en EE. UU. Su patente llegó en abril de 2021.

Según la presentación de MBW, el chatbot "puede apoyar batallas de rap" y "participar en el proceso de creación de música de manera social".

Lea la patente aquí.

3) MUECOCO El 31 de mayo se anunció un generador de música de texto a símbolo impulsado por IA.

"MuseCoCo", abreviatura de "Copiloto de composición musical", crea "música simbólica" (MIDI, no audio) a partir de instrucciones de texto.

Los investigadores utilizaron MuseScore para exportar música mp3 como referencia.

Incluyeron comparaciones de otros modelos de lenguaje y muestras de audio al ingresar indicaciones de texto de varias longitudes y complejidades en la herramienta de creación.

Muzic de Microsoft dice que el concepto "faculta a los músicos para generar música directamente a partir de descripciones de texto dadas, ofreciendo una mejora significativa en la eficiencia en comparación con la creación de música completamente desde cero".



Se publicó un manuscrito, aún en revisión, con los resultados de la investigación.


Los investigadores creen que su tecnología de texto a música "divide la tarea en dos etapas". La primera etapa es "comprensión de texto a atributo" y la segunda es "generación de atributo a música".


ChatGPT "sintetiza y refina" el texto durante la "comprensión de texto a atributo".


El artículo dice que MuseCoco "puede admitir múltiples formas de controlar" los resultados "debido al diseño de dos etapas".


Explica: Los no músicos pueden usar el modelo de la primera etapa para convertir sus descripciones textuales intuitivas en atributos profesionales, mientras que los músicos pueden ingresar directamente los valores de los atributos en la segunda etapa para generar composiciones.


"Por lo tanto", dice Muzic, "MuseCoco permite una experiencia de usuario que es más inclusiva y adaptable que los sistemas que generan música directamente a partir de descripciones de texto".


El artículo describe el modo de entrenamiento. El modelo MusicGen AI de Meta puede generar clips de audio de 12 segundos a partir de indicaciones de texto utilizando 20.000 horas de música con licencia.


Los científicos de Muzic recopilaron conjuntos de datos MIDI de "fuentes en línea" "Para preparar la etapa característica de la era de la música y evaluar nuestra técnica propuesta".


Después del "filtrado de datos para eliminar muestras duplicadas y de mala calidad", tenían 947.659 muestras MIDI.


El conjunto de datos MetaMIDI (MMD), "una colección a gran escala de 436.631 archivos y metadatos MIDI", es uno de ellos.


A través del raspado web, el MMD "contiene metadatos de artistas y títulos para 221 504 archivos MIDI y metadatos de género para 143 868 archivos MIDI".

Publicar un comentario

Artículo Anterior Artículo Siguiente