Pinterest ha anunciado nuevas funciones para etiquetar automáticamente las imágenes generadas o editadas con inteligencia artificial (IA) en su plataforma. Estas etiquetas, que aparecerán como un sello de “Modificado con IA” en la parte inferior izquierda de los pines al hacer clic en ellos, buscan ayudar a los usuarios a identificar este tipo de contenido y tomar decisiones más informadas.
La detección se basará tanto en metadatos (como SynthID de Google o Content Credentials de Adobe) como en clasificadores desarrollados por Pinterest, incluso si la imagen no tiene marcadores visibles. Además, los usuarios podrán apelar si consideran que su contenido fue mal etiquetado.
Pinterest también implementará pronto una función experimental que permitirá filtrar imágenes con IA en categorías como belleza y arte, usando una opción de “ver menos” en el menú de cada pin. La compañía planea ampliar este filtro a más categorías, aunque aún no está claro cuánta IA se podrá bloquear.
Estas medidas responden a críticas por la proliferación de imágenes generadas con IA que dificultan la búsqueda de referencias reales y útiles en la plataforma.
Black Forest Labs, una startup emergente de inteligencia artificial, ha lanzado su modelo de texto a imagen, FLUX 1, que ya supera a competidores como Midjourney 6.0, DALL-E 3 HD y Stable Diffusion 3-Ultra. FLUX 1 destaca en detalles de imagen, complejidad de escenas y adherencia a las indicaciones, según el sistema de clasificación Elo. El modelo ofrece opciones de proporciones y estilos similares a las de otros generadores de imágenes actuales.
El equipo de Black Forest Labs incluye ingenieros que anteriormente trabajaron en Stability AI, la empresa detrás de Stable Diffusion. Stability AI enfrentó problemas recientemente debido a acusaciones de mala gestión contra su CEO, Emad Mostaque, quien renunció. La startup ha recibido respaldo de figuras destacadas de la industria de la IA, incluyendo al CEO de Y Combinator, Garry Tan, y Timo Aila, investigador principal en Nvidia, además de obtener una ronda de financiamiento inicial de 31 millones de dólares liderada por Andreessen Horowitz.
FLUX 1 se diferencia por el uso de técnicas experimentales de entrenamiento, como embeddings posicionales rotativos y un transformador de difusión paralelo. Estas técnicas permiten al modelo analizar múltiples partes de una secuencia simultáneamente, acelerando el proceso de generación de imágenes coherentes a partir de ruido visual.
Black Forest Labs planea lanzar pronto un modelo de texto a video de última generación, lo que podría representar un desafío para otras empresas de IA enfocadas en video, como OpenAI, HeyGen y Runway. Mientras tanto, FLUX 1 ya está disponible en plataformas en la nube como Fal y Replicate.
Una nueva investigación realizada por investigadores de Google y varias organizaciones de verificación de hechos ha revelado que la mayoría de la desinformación basada en imágenes es ahora generada por inteligencia artificial (IA). Sin embargo, la forma en que se recopiló la información sugiere que el problema podría ser aún peor de lo que se afirma.
Un estudio reciente, realizado principalmente por autores de Google, encontró que casi el 80% de las afirmaciones verificadas están relacionadas con algún tipo de medio, especialmente video. Este incremento en desinformación mediática se ha acelerado con la llegada de herramientas de IA como ChatGPT.
El estudio, identificado por primera vez por el boletín Faked Up, mide el aumento de la desinformación generada por IA al analizar las afirmaciones de desinformación basadas en imágenes verificadas por sitios como Snopes y Politifact. En total, el estudio revisa 135.838 verificaciones de hechos que datan de 1995, aunque la mayoría de las afirmaciones fueron creadas después de 2016, tras la introducción de ClaimReview. ClaimReview es un sistema de etiquetado que permite a los verificadores de hechos y editores marcar desinformación para plataformas como Google, Facebook, Bing, entre otras.
El flujo interminable de respuestas generadas por IA de Google, que son incorrectas y a veces peligrosas, se está volviendo viral en las redes sociales, exacerbando la propagación de desinformación. El gráfico más revelador del estudio muestra la “prevalencia de los tipos de manipulación de contenido como una función de las manipulaciones generales de contenido”. En otras palabras, muestra los diferentes tipos de desinformación basada en imágenes y cuán comunes son a lo largo del tiempo.
Como se puede ver en el gráfico, la desinformación basada en imágenes generadas por IA no era un problema hasta finales de 2023, cuando los generadores de imágenes por IA se volvieron ampliamente disponibles y populares, punto en el cual prácticamente reemplazaron todas las demás formas de desinformación basada en imágenes. El gráfico también muestra que hay un ligero aumento en el número total de muestras de desinformación basada en imágenes que corresponde con el aumento de las imágenes de IA, pero solo ligeramente.
«Curiosamente, el aumento de las imágenes de IA no produjo un incremento en la proporción general de reclamaciones de desinformación que dependen de imágenes durante este período, y la desinformación basada en imágenes continuó disminuyendo de manera relativa a medida que creció la desinformación basada en videos», dice el artículo.
Según el artículo, el problema de las imágenes generadas por IA podría ser aún peor porque la muestra de datos se basa en los datos públicos de los verificadores de hechos, que no seleccionan al azar la desinformación basada en imágenes generadas por IA. Sitios como Snopes y Politifact, que tienen recursos limitados, se centran en verificar imágenes que han alcanzado cierto grado de viralidad o cobertura de noticias, por lo que sus verificaciones de hechos cumplen un propósito o una audiencia. Históricamente, los verificadores de hechos también se enfocan en la desinformación en inglés, permitiendo que la desinformación en otros idiomas se convierta en un problema mayor. Esta muestra subestimaría la avalancha de imágenes generadas por IA que vemos en plataformas como Facebook a diario y que a veces no se informan.
El advenimiento de los generadores de imágenes por IA ha creado un problema no solo con la desinformación generada por IA, sino también con el spam generado por IA. Los sitios de verificación de hechos a menudo solo tienen capacidad para verificar imágenes que se vuelven virales o que se están difundiendo ampliamente. Pero hemos visto que los generadores de imágenes por IA permiten la creación masiva de muchas variaciones de una imagen dada, no todas las cuales se vuelven virales.
Otra forma en que el problema de la desinformación generada por IA podría ser incluso peor de lo que encontró el estudio es que las imágenes generadas por IA podrían estar incluidas en videos. “Históricamente, las imágenes eran la modalidad dominante asociada con las reclamaciones de desinformación; sin embargo, los videos se volvieron más comunes a partir de 2022 y ahora participan en más del 60% de las reclamaciones verificadas que incluyen medios”, dice el estudio. Pero el estudio no tiene en cuenta el hecho de que la desinformación en videos podría estar compuesta en parte o totalmente de imágenes generadas por IA. Incluso el Partido Republicano de los EE. UU. comenzó a usar videos compuestos enteramente por imágenes generadas por IA en videos oficiales de campaña desde el año pasado.
“Originalmente queríamos aplicar anotaciones similares a la desinformación basada en videos también, pero resultó demasiado complejo de manejar y la tarea se volvió demasiado elaborada y consume mucho tiempo, por lo que terminamos con un esfuerzo ligeramente más enfocado”, dijo Dufour.
Nuevamente, será difícil obtener una imagen completamente precisa de cuán grave es el problema de la desinformación generada por IA porque es mucho más laborioso encontrar y revisar estas imágenes que producirlas. Tampoco ayuda que Google esté promoviendo contenido generado por IA que no necesariamente es lo que consideramos desinformación política, pero que está simplemente incorrecto, ya sea libros generados por IA o resultados de búsqueda que dicen a los usuarios que coman pegamento.
Empresas que ofrecen software de inteligencia artificial generativa de imágenes argumentaron para desestimar una demanda por infracción directa de derechos de autor de artistas que afirman que las empresas utilizaron su trabajo sin permiso para entrenar un modelo de IA de texto a imagen.
Según la demanda colectiva de los artistas, la empresa de software de IA Midjourney y la plataforma de arte en línea DeviantArt utilizaron sus obras para entrenar la herramienta de IA de texto a imagen Stable Diffusion sin pagar a los artistas ni obtener su consentimiento para utilizar sus obras como imágenes de entrenamiento, y las imágenes resultantes siguen compitiendo con las obras de los artistas humanos en el mercado.
Los artistas demandaron por primera vez a DeviantArt, Midjourney y Stability AI, creador de Stable Diffusion, el año pasado, pero el juez superior de distrito de EE.UU. William Orrick desestimó la mayoría de las demandas de los artistas en octubre de 2023, permitiendo que sólo sobreviviera una demanda directa de derechos de autor contra Stability AI.
El juez William Orrick permitió que una única demanda de infracción directa de derechos de autor sobreviviera contra Stability AI, pero desestimó la mayoría de las otras reclamaciones de los artistas.
Los abogados de DeviantArt argumentaron que la plataforma de arte debería ser excluida de la acción porque solo utilizó Stable Diffusion para producir imágenes para su herramienta DreamUp AI y nunca utilizó directamente las imágenes de los artistas para entrenar un modelo de IA o crear imágenes que se parecieran a las de los artistas.
Los abogados de Midjourney ofrecieron una defensa similar. El juez Orrick tomó el asunto bajo consideración.
Una revista científica publicó esta semana un artículo lleno de imágenes generadas por inteligencia artificial (IA) que carecían de sentido, incluyendo un diagrama erróneo de un pene de rata, en un episodio preocupante que refleja cómo la IA generativa está ingresando en la academia con efectos preocupantes.
El artículo, titulado «Funciones celulares de las células madre espermatogénicas en relación con la vía de señalización JAK/STAT«, fue publicado en la revista de acceso abierto Frontiers in Cell Development and Biology por investigadores de la Hospital de Hong Hui y la Universidad Jiaotong en China. Aunque el contenido del artículo en sí podría ser de interés específico para aquellos con un interés particular en las células madre de mamíferos pequeños, las figuras publicadas con el artículo son otra historia completamente diferente.
Una de las figuras incluye un diagrama de un pene de rata disecado, con texto garabateado y etiquetas incorrectas que sugieren que el pene de la rata es más del doble del tamaño de su cuerpo. Otras figuras generadas por IA en el artículo también presentan un abundante sinsentido textual y visual, como diagramas celulares que parecen más pizzas alienígenas que cualquier cosa relacionada con la biología. Es incierto cómo estas imágenes pudieron pasar por el proceso de edición, revisión por pares y publicación.
A pesar de que uno de los revisores del artículo señaló que no era su responsabilidad evaluar la precisión de las imágenes generadas por IA, la política de la revista Frontiers establece que el autor es responsable de verificar la precisión factual de cualquier contenido creado por la tecnología IA generativa. Esta discrepancia resalta la creciente preocupación sobre el manejo de la IA generativa en la investigación académica.
La tendencia creciente de la IA generativa en la academia preocupa a científicos y observadores, y algunas publicaciones, como Nature, han comenzado a adoptar políticas para abordar este problema. Nature, por ejemplo, prohibió el uso de IA generativa para imágenes y figuras en artículos el año pasado, citando riesgos para la integridad científica. Este incidente subraya la necesidad de que la comunidad científica establezca estándares claros y políticas efectivas para abordar los desafíos éticos y de calidad relacionados con el uso de la IA en la investigación.
DALL-E es un modelo generativo desarrollado por OpenAI que se basa en la arquitectura GPT (Generative Pre-trained Transformer). La particularidad de DALL-E es su capacidad para generar imágenes a partir de descripciones textuales. Fue presentado por OpenAI en enero de 2021.
A diferencia de otros modelos generativos que trabajan con texto, como GPT-3, DALL-E está diseñado específicamente para generar imágenes realistas a partir de descripciones textuales. Puede crear imágenes completamente nuevas y originales que se ajustan a las descripciones dadas como entrada. Por ejemplo, si se le proporciona un texto que dice «un elefante rosa con alas», DALL-E intentará generar una imagen que coincida con esa descripción. La herramienta es de pago, y se necesitan comprar créditos
DALL-E se entrena en grandes conjuntos de datos que contienen imágenes y sus descripciones correspondientes. Luego, se puede utilizar para generar imágenes nuevas a partir de descripciones textuales que no formaron parte de los datos de entrenamiento.
La función de edición de DALL·E ya permite realizar cambios dentro de una imagen generada o cargada, una capacidad conocida como «Inpainting». Ahora, con «Outpainting», los usuarios pueden ampliar la imagen original, creando imágenes a gran escala en cualquier relación de aspecto. «Outpainting» tiene en cuenta los elementos visuales existentes en la imagen, incluyendo sombras, reflejos y texturas, para mantener el contexto de la imagen original.
Este enfoque tiene aplicaciones en la generación de contenido visual, diseño gráfico, y en general, en cualquier situación en la que se desee convertir descripciones textuales en imágenes de manera automatizada y creativa.
Estamos en 2023 y la inteligencia artificial te permite crear una imagen a partir de una descripción. Es asombroso. (Via Neuron)
Dos preguntas:
¿Qué generadores de imágenes deberías utilizar?
¿Para qué utilizarlos?
Midjourney era y sigue siendo la mejor opción para imágenes hiperrealistas y abstractas. Pero hay una curva de aprendizaje empinada
Hay dos promesas dignas de mención:
DALL-E 3 de OpenAI: Merece la pena usarlo cuando la imagen necesita elementos de texto, como dibujos animados, marcas, memes, etc.
Adobe Firefly Image 2: este modelo acaba de subir de nivel: puede hacer cosas como la textura de la piel y las manos bastante bien.
La gran ventaja es que Adobe es una apuesta segura para las empresas. Adobe no entrena a su IA con arte no autorizado y acaba de lanzar Content Credentials, una «etiqueta digital» que muestra cómo se hizo una imagen y quién la hizo. Firefly ha recibido un montón de mejoras esta semana, como la ampliación de fotos y la alineación de estilos con tu marca.
Estos generadores de imágenes resultan muy útiles para cualquier proyecto que incluya elementos visuales: – Imágenes para blogs, redes sociales o marketing digital.
– diseños de productos.
– moda/diseño de interiores.
– diagramas/ilustraciones para contenido educativo.
– miniaturas (que ahora puedes probar A/B con ChatGPT-4V)».
La generación de imágenes mediante inteligencia artificial ha alcanzado un nivel impresionante. Gracias a un modelo de síntesis de imágenes de código abierto llamado «Stable Diffusion», prácticamente cualquier persona con un ordenador personal y una GPU competente puede materializar casi cualquier imagen visual que pueda concebir. Este modelo tiene la habilidad de emular una amplia gama de estilos visuales y, al proporcionar una simple descripción, los resultados parecen surgir en la pantalla como por arte de magia.
Esta innovación ha suscitado diversas reacciones entre los artistas, algunos de los cuales están entusiasmados con las posibilidades que ofrece, mientras que otros se sienten preocupados. La sociedad en general todavía no es plenamente consciente de la revolución tecnológica que se está gestando en las comunidades de Twitter, Discord y Github. Podría argumentarse que la síntesis de imágenes posee implicaciones tan trascendentales como la invención de la cámara fotográfica, o incluso la creación misma de las artes visuales. Incluso nuestra comprensión de la historia podría verse afectada por el curso que tomen estos acontecimientos. En cualquier caso, Stable Diffusion lidera una nueva ola de herramientas creativas basadas en el aprendizaje profundo que están a punto de transformar la creación de contenido visual de manera significativa.
Una imagen con humo negro que se eleva al lado de un edificio de aspecto burocrático se difundió por las redes sociales el lunes por la mañana, con la afirmación de que mostraba una explosión cerca del Pentágono. En cuestión de minutos, una ola de cuentas de redes sociales, incluyendo algunas cuentas verificadas, compartieron la imagen falsa, amplificando aún más la confusión.
La publicación causó un breve sobresalto en el mercado de valores cuando rápidamente fueron recogidas por medios de comunicación fuera de Estados Unidos, antes de que los funcionarios intervinieran para aclarar que en realidad no había ocurrido ninguna explosión y que la foto era falsa.
Los expertos afirman que la imagen viral tenía señales evidentes de ser una falsificación generada por IA, y su popularidad subraya el caos cotidiano que estos programas, cada vez más sofisticados y de fácil acceso, pueden causar.
Hay muchas herramientas de IA generativa, como Midjourney, Dall-e 2 y Stable Diffusion, que pueden crear imágenes realistas con muy poco esfuerzo. Estas herramientas se entrenan observando grandes volúmenes de imágenes reales, pero rellenan los huecos con su propia interpretación cuando faltan datos de entrenamiento. Esto puede dar lugar a personas con extremidades adicionales y objetos que se transforman con su entorno.
Este incidente destaca las posibles amenazas que las imágenes generadas por IA pueden presentar en el ámbito de las redes sociales, donde se comparten rápidamente, así como la necesidad de un sistema de verificación en Twitter.
Con la nueva versión de Photoshop lanzada la semana pasada, los usuarios ahora pueden manipular o agregar elementos a una imagen en cuestión de segundos, simplemente dando una instrucción al programa. La versión beta de la nueva función «Generative Fill» de Adobe llega después de varios avances en software de generación de imágenes durante el último año.
Se espera que esta función esté disponible para el público en general en la segunda mitad de 2023, lo que significa que podemos esperar estar inundados de imágenes cada falsas (Adobe cuenta con millones de usuarios de productos creativos).
«Nos estamos adentrando en un mundo en el que tú y yo ya no podemos creer que si vemos una imagen del Papa usando una chaqueta hinchada y caminando fuera del Vaticano, realmente sea él», dijo Maura Grossman, profesora investigadora en la escuela de ciencias de la computación de la Universidad de Waterloo, quien ha estado estudiando las implicaciones del mundo real de las imágenes generadas por IA. Ver video
La inteligencia artificial plantea un «riesgo de extinción», advierten ejecutivos y expertos en tecnología. En marzo, se creó una imagen del Papa con otro programa, Midjourney, y se publicó en Reddit. La imagen se compartió ampliamente en línea y muchos inicialmente creyeron que era real, ilustrando el poder y el peligro de esta tecnología.
Riesgos y recompensas
Esta tecnología tiene posibilidades emocionantes para aquellos en campos creativos (aunque hay obstáculos en esta etapa temprana y algunas de las imágenes claramente parecen manipuladas).
Sin embargo, también hará cada vez más difícil distinguir entre lo que es real y lo que no lo es. Justo la semana pasada, una imagen manipulada del Pentágono explotando en llamas causó que el mercado de valores de Estados Unidos bajara brevemente después de que varios medios internacionales la difundieran. Se alienta a los usuarios de la función de IA de Photoshop a utilizar lo que llaman «credenciales de contenido». Adobe describe las credenciales como una «etiqueta nutricional» para las imágenes, diseñada para dejar claro si un contenido fue generado o editado por IA.