Este año (2022) ha sido testigo de la introducción de algunos convertidores de texto a imagen verdaderamente notables. Stable Diffusion siguió poco después de la explosión inicial de Dall-E 2, que había iniciado la ola masiva. Desde entonces, han surgido muchas más herramientas, como Midjourney, Craiyon e incluso TikTok hasta cierto punto. Cada vez más personas están preocupadas por la ética del uso de generadores de imágenes de IA, especialmente cuando esas herramientas pueden crear imágenes de personas reales en contextos en los que no existían.
Aún así, hay más que solo ética en qué pensar. Los generadores de imágenes con inteligencia artificial aprenden a reconocer objetos mediante el estudio de innumerables ejemplos proporcionados por fotografías creadas por humanos. ¿En qué momento constituye una infracción de los derechos de autor? ¿Hay algún recurso legal disponible si su IA produce una imagen que se asemeja a otro diseño y ese otro diseño se usa luego en un contexto comercial? Y si es así, ¿quién? ¿Quién, exactamente, es el "artista" aquí?
Estos problemas éticos y de seguridad son solo la punta del iceberg cuando se trata de la gran cantidad de problemas que surgen al tratar con productores de imágenes de IA. Las fotos falsas creadas con estas técnicas se pueden usar para avanzar en una narrativa, y se espera que la situación empeore con el tiempo. Es aterrador contemplar hasta dónde podrían llegar estos sistemas de generación de imágenes en un futuro próximo, dadas sus ya impresionantes capacidades. Pero si solo quieres jugar y hacer buenas fotos, también está bien.
Difusión Continua
Este artículo fue motivado por mi reciente experimentación con Stable Diffusion. Es uno de los programas más potentes disponibles y se ejecuta localmente en su computadora (por lo que no tiene que competir por los recursos con otros usuarios de alguna aplicación en línea). Le brinda un control completo sobre todo el proceso de creación, además de una gran cantidad de opciones de ajuste fino para factores individuales.
Todos los peligros habituales de la IA se aplican a la difusión estable, además de la "amenaza" que plantea su disponibilidad generalizada. Cualquier persona con una computadora lo suficientemente potente puede ponerla en funcionamiento en poco tiempo. Una hora después de instalar Stable Diffusion en un sistema con un i7-12700KF, RTX 3080, 32 GB de RAM e Internet gigabit, generé mis primeras fotos. Puede salirse con la suya ejecutándolo en un hardware inferior (aunque no podrá generar imágenes tan grandes con una vRAM más pequeña y tomará más tiempo; mi PC está claramente en el extremo superior).
La mejor característica de Stable Diffusion es que es gratis para que cualquiera lo use. Photoshop ya tiene complementos como Alpaca que brindan soporte para él, por lo que si lo desea, puede comenzar a usarlo de inmediato en cualquiera de sus proyectos. No es genial, pero aquí estamos hablando de etapas muy preliminares de creación de programas. Dream Studio es otra opción, aunque viene con una etiqueta de precio y más limitaciones que una versión instalada localmente.
Además, hay bifurcaciones de Stable Diffusion, como Stable Diffusion WebUI de AUTOMATIC1111, que tienen una función de mejora incorporada que puede mejorar la resolución en un factor de hasta cuatro. Crear una imagen con una resolución más baja y luego ampliarla suele ser significativamente más rápido que crear una imagen con una resolución más alta desde cero. Las imágenes a continuación se han ampliado desde dispositivos móviles.
Stable Diffusion tardó un mes en entrenarse en un clúster de 4000 GPU Nvidia A100 alojadas en AWS. Puede crear retratos de celebridades y tiene un filtro NSFW incorporado. Debido a que reduce la cantidad de VRAM utilizada, el filtro NSFW se puede desactivar en las instalaciones locales. La difusión se refiere a la evolución de un estado inicial de caos a un estado más refinado. A medida que pasa el tiempo, la imagen se refina para que coincida mejor con el texto. Dall-E 2 funciona de la misma manera.
Finalmente, "img2img" es otra adición entretenida a Stable Diffusion. Se utiliza una imagen como punto de partida y se le indica a la computadora que esboce el sujeto de acuerdo con sus especificaciones.
A cambio de proporcionarle un punto de partida, produjo una imagen respetable. Si se le dan sugerencias más útiles (la mía es contradictoria), no tengo dudas de que podría hacerlo mucho mejor. Aún así, no está mal para algo que preparé en menos de una décima parte de ese tiempo.
En pocas palabras, Stable Diffusion es problemático en su amplia disponibilidad a pesar de ser gratuito y fácil de implementar. Tendrá que pagar para usar esto con programas como Dream Studio si su computadora no está a la altura.
Anteriormente conocido como DALLE Mini, Craiyon no está relacionado con DallE 2 a pesar de compartir el nombre. Fue hecho para imitar el rendimiento del modelo de texto a imagen DALLE de OpenAI. Puede utilizar Craiyon, que es de libre acceso para el público, para hacer fotografías que son sorprendentemente buenas, sin embargo, no son tan precisas ni de tan alta calidad como las producidas por métodos más avanzados. La resolución máxima de una imagen es de 256x256 y no hay opciones de ampliación.
Tanto el uso de Craiyon como el acceso a su sitio web son gratuitos. Se puede generar cualquier imagen en cualquier indicación, pero a costa de una calidad reducida y un tiempo de espera de alrededor de dos minutos para cada lote. Craiyon se desarrolló originalmente como un modelo de código abierto para replicar los resultados del modelo pionero DALL'E. DALL'E Mega es el modelo actual y tiene mejoras significativas con respecto a su predecesor.
A diferencia de las otras opciones aquí, Craiyon se financia completamente con publicidad. Por lo tanto, cuando visite su sitio web, verá patrocinios pagados y otros anuncios. También hay disponible una aplicación para Android. Si bien no es la solución más avanzada, es entretenida, fácil de usar y está disponible para todos.
Dall-E 2
Uno de los generadores de imágenes de IA más conocidos es Dall-E 2, que se desarrolló en el laboratorio de OpenAI. Es un instrumento secreto al que tienen acceso unos pocos elegidos, pero los avances que puede producir son nada menos que espectaculares. Debido a preocupaciones éticas y de seguridad originales, el acceso estaba restringido; sin embargo, esto ha cambiado con el tiempo.
La capacidad de Dall-E 2 para producir imágenes fotorrealistas que, a primera vista, no se pueden distinguir de las fotografías reales es uno de sus principales puntos de venta. Puede crear pinturas, fotos que parecen tomadas con una cámara real y escenas completamente ficticias. Cuando se reveló por primera vez, fue un avance significativo en las capacidades de imágenes de inteligencia artificial (IA) y procesamiento del lenguaje natural (NLP). Esto se debe a que utiliza GPT-3 de OpenAI, un modelo de lenguaje altamente sofisticado.
Al igual que Stable Diffusion, Dall-E 2 puede usar un mensaje determinado para realizar ajustes en fotos preexistentes. Le permite modificar imágenes agregando, eliminando o ajustando la iluminación de una imagen según sus instrucciones. OpenAI lanzó Outpainting el mes pasado, que puede ampliar sus imágenes al considerar el contexto de lo que está actualmente accesible en su imagen cuadrada, sin embargo, solo puede crear imágenes cuadradas.
No hay costo para probar Dall-E 2 en este momento.
a mitad de camino
Como plataforma pública que puede hacer gráficos, Midjourney es intrigante, aunque la única forma de acceder a ella es a través de un servidor Discord. Además, una vez que hayas hecho 25 fotos, necesitarás una suscripción paga para hacer más.
Dado que se puede acceder a Midjourney desde cualquier dispositivo con una cuenta de Discord, también es el más conveniente, pero le costará dinero. Sin embargo, los resultados son satisfactorios. Jason Allen, un suscriptor, hizo una composición que llamó "Théâtre D'opéra Spatial" usando el programa. Lo envió al concurso de arte de la Feria Estatal de Colorado, donde obtuvo el primer lugar.
Midjourney, a diferencia de estos otros, es un sistema privado de IA desarrollado por sus creadores. Nadie tiene acceso al código y no tiene ningún propósito fuera de un servidor Discord en este momento. En una entrevista con The Verge, David Holz, el creador de Midjourney, explicó por qué el servicio está limitado a un servidor Discord.
En septiembre del año pasado, comenzamos a probar la tecnología en bruto y vimos algunas diferencias sorprendentes casi de inmediato. Nuestras encuestas iniciales confirmaron nuestra sospecha inicial de que el público en general no puede articular sus deseos y necesidades. Con esta máquina, puedes crear cualquier cosa que se te ocurra. Todos gritan, "perro". Después de tu "¿en serio?" responden con un "perro rosa". Alguien ve una foto de un perro, asiente y sigue adelante.
Sin embargo, si los pones en un grupo, alguien dirá "perro", otro dirá "perro espacial" y un tercero dirá "perro espacial azteca". De repente, todo el mundo ve las posibilidades y ha creado una atmósfera en la que las personas pueden experimentar y desarrollar su imaginación mejorada. Entonces, después de descubrir que las personas disfrutan de la fantasía compartida, decidimos hacer [Midjourney] una experiencia social.
El estilo predeterminado "Midjourney" era igualmente difícil de cambiar en ese entonces. Si hay que creer en la misma entrevista con Holz, entonces.
Es un desafío alejar [a la modelo] de [nuestro] estilo y apariencia predeterminados porque es artístico y encantador.
No obstante, la firma ha lanzado dos nuevos modelos, "test" y "testp", desde entonces. El modelo "test" es polivalente, mientras que "testp" está dedicado al fotorrealismo. Por lo tanto, puede deshacerse del aspecto estándar y hacer fotografías de una variedad más amplia.
Los riesgos y las implicaciones morales de las obras de arte creadas por IA
Aunque fascinantes, las obras de arte creadas por IA plantean serias amenazas para el público en general. Las imágenes que parecen y se sienten reales, pero que se pueden fabricar en minutos, representan una amenaza en una era en la que puede ser difícil identificar si las noticias se tomaron fuera de contexto o si son totalmente falsificadas. Mira las imágenes que hice como ilustración. Tanto la versión Stable Diffusion como la Craiyon se crearon desde cero.
Las imágenes de arriba indican un OVNI derribado en Roswell, y la primera muestra lo que parece ser un ser humano solitario paseando sobre los restos. Si bien esta imagen se creó para simular una fotografía real, un observador casual podría confundirla con la real. Ambas fotografías parecen lo suficientemente auténticas a primera vista como para pasar la prueba de la vista, y cualquier artefacto puede explicarse por la menor calidad de las fotos tomadas en 1947. Craiyon es una página gratuita programa, por lo que ni siquiera tiene que tener una máquina de primera línea para lograrlo.
El hecho de que pueda decirle al algoritmo que se inspire en un artista determinado solo aumenta la confusión. Greg Rutkowski, un artista muy conocido, ha protestado públicamente por el uso de su nombre en obras de arte creadas por IA. No sorprende que su nombre sea una de las indicaciones del generador de imágenes más utilizadas. En una entrevista con artnet, Rutkowski dijo: "La inteligencia artificial debería eliminar a los artistas vivos de su base de datos y, en cambio, concentrarse en las obras de dominio público". Al buscar el nombre de Rutkowski, es posible que obtenga resultados que parezcan su trabajo, pero que en realidad son falsificaciones generadas por computadora.
Para empeorar las cosas, las obras de arte creadas por IA a menudo sirven para exponer los prejuicios humanos. Las advertencias sobre el potencial de Craiyon para producir fotos con estereotipos negativos se publican en la parte inferior de la página de preguntas frecuentes del sitio. Esto se debe a que "el modelo fue entrenado con datos sin filtrar de Internet". Como resultado, cuando escribe términos como "ejecutivo de negocios", en su mayoría verá imágenes de hombres blancos con traje. Del mismo modo, si escribe "maestra" en un aviso, las imágenes de mujeres enseñando llenarán abrumadoramente los resultados.
Una mirada al futuro de la estética hecha a máquina
Anticipamos un mayor desarrollo porque parece que la industria no se está desacelerando (y la regulación no se mantiene al día). Lo grande que es esta industria y lo grande que tiene el potencial de ser puede demostrarse en la rapidez con la que pudimos pasar de las capacidades de Dall-E 2 (aunque era privado) a Stable Diffusion. Ahora solo se necesita un solo artista para las correcciones de imágenes que habrían requerido un equipo de artistas para crear en el pasado. Aunque la Oficina de derechos de autor de los EE. UU. declara oficialmente que no puede registrar los derechos de autor de las fotos generadas por IA, hemos observado que Midjourney puede ayudarlo a ganar un concurso de arte.
Además, Holz mencionó en la entrevista que el costo actual de entrenar a cada modelo es de aproximadamente $50,000. Las imágenes son costosas de producir ya que requieren servidores poderosos, especialmente cuando hay muchas personas usando el servicio a la vez. Cualquier nuevo participante en el mercado encontrará que los costos de entrada son elevados, lo que puede disuadir a algunas empresas. Aunque las iniciativas de código abierto son solo el comienzo, algunas como Stable Diffusion son alentadoras.
Por lo tanto, esperamos con entusiasmo la próxima generación de imágenes generadas por IA. Mucho ha cambiado en el año anterior; se siente como si hubiera nuevos desarrollos en el campo todos los días. Aún así, pueden pasar muchas cosas en el próximo año o dos, especialmente con la manipulación de imágenes basada en IA que llega a nuestros dispositivos.