Apple ha publicado un estudio técnico que habla de los modelos que ha utilizado para hacer posible Apple Intelligence. Apple Intelligence es un conjunto de funciones de inteligencia artificial generativa que llegarán a iOS, macOS y iPadOS en los próximos meses.
En el documento, Apple responde a las afirmaciones de que entrenó algunos de sus modelos de forma poco ética diciendo de nuevo que no utilizó datos privados de los usuarios, sino una combinación de datos disponibles públicamente y con licencia para Apple Intelligence.
En el documento, Apple dice: "El conjunto de datos de preentrenamiento está formado por... datos que hemos obtenido bajo licencia de los editores, conjuntos de datos seleccionados públicamente o de código abierto e información disponible públicamente rastreada por nuestro rastreador web, Applebot". "Como nos preocupamos por proteger la privacidad del usuario, queremos asegurarnos de que no haya datos privados de usuarios de Apple en la mezcla".
Proof News reveló en julio que Apple entrenó una familia de modelos creados para el procesamiento en el dispositivo con subtítulos de cientos de miles de vídeos de YouTube. El conjunto de datos se llama "The Pile" y tiene subtítulos de más de 100.000 vídeos. Muchos YouTubers cuyos subtítulos quedaron atrapados en "The Pile" no sabían nada de esto y no lo aceptaron. Apple dijo más tarde en un comunicado que no planeaba usar esos modelos para potenciar ninguna función de IA en sus productos.
El documento técnico brinda más información sobre los modelos Apple Foundation Models (AFM), que Apple mostró por primera vez en la WWDC 2024 en junio. Destaca que los datos de entrenamiento para los modelos AFM provienen de una fuente "responsable", al menos según Apple.
Los datos de entrenamiento para los modelos AFM incluyen tanto datos web disponibles de forma gratuita como datos con licencia de autores que no han sido nombrados. El New York Times afirma que Apple habló con NBC, Condé Nast e IAC, entre otros, sobre acuerdos plurianuales por un valor de al menos 50 millones de dólares para entrenar modelos en sus archivos de noticias cerca de finales de 2023. Apple también utilizó código de fuente abierta en GitHub para entrenar sus modelos AFM. Este código incluía Swift, Python, C, Objective-C, C++, JavaScript, Java y Go.
A los desarrolladores no les gusta que los modelos se entrenen en código sin permiso, incluso en código abierto. Algunos programadores dicen que los términos de uso de algunas bases de código de fuente abierta no autorizan el entrenamiento de IA o no lo permiten en absoluto. Pero Apple dice que "filtró la licencia" del código para tratar de incluir solo repositorios con pocos límites de uso, como los que tienen una licencia MIT, ISC o Apache.
El artículo dice que Apple incluyó específicamente preguntas de matemáticas y respuestas de sitios web, foros de matemáticas, blogs, tutoriales y seminarios en el conjunto de entrenamiento para ayudar a los modelos AFM a mejorar en matemáticas. La empresa también utilizó conjuntos de datos "de alta calidad y disponibles públicamente" (que el documento no menciona) que tenían "licencias que permiten su uso para entrenar [...] modelos" y de los que se les quitó información confidencial.
Los modelos AFM se entrenan con un conjunto de datos que contiene alrededor de 6,3 billones de tokens (los tokens son pequeñas piezas de datos que son más fáciles de asimilar para los modelos de IA generativa). Eso es menos de la mitad de los 15 billones de tokens que Meta utilizó para entrenar a Llama 3.1 405B, su modelo de generación de texto más famoso.
Apple recopiló más información, como comentarios de personas y datos artificiales, para mejorar los modelos AFM e intentar detener cualquier comportamiento incorrecto, como la toxicidad.
Según la empresa, "nuestros modelos se crearon para ayudar a los usuarios a hacer cosas cotidianas en sus productos Apple. Se basan en los valores fundamentales de Apple y en nuestros principios de IA responsable en cada etapa".
No hay una prueba irrefutable ni una idea nueva y sorprendente en el documento, y eso se hizo a propósito. Debido a la competencia y al hecho de que las empresas podrían meterse en problemas por compartir demasiado, no se publican artículos como estos muy a menudo.
Algunas empresas que entrenan modelos extrayendo datos de la web pública dicen que la ley de uso legítimo protege sus acciones. Pero hay mucho desacuerdo al respecto y cada vez se presentan más casos al respecto.
En el artículo, Apple dice que los propietarios pueden impedir que su rastreador extraiga datos de otros sitios. Pero eso deja a los artistas que trabajan solos en una situación difícil. ¿Qué debería hacer un artista si, por ejemplo, su currículum está en un sitio web que no impedirá que Apple lo extraiga?
El destino de los modelos de IA generativa y la forma en que se les enseña dependerá de los casos judiciales. Pero por ahora, Apple está tratando de demostrar que es una buena empresa y al mismo tiempo evitar problemas con la ley.