Archivo de la etiqueta: ChatGPT

OpenAI lanza GPT-5, la última versión de su modelo de IA ChatGPT

AP News. 2025. “OpenAI Launches GPT-5.” August 7. https://apnews.com/article/gpt5-openai-chatgpt-artificial-intelligence-d12cd2d6310a2515042067b5d3965aa1

GPT-5 es la última versión del modelo de lenguaje que impulsa ChatGPT. Representa un salto significativo en capacidades de razonamiento, precisión, velocidad y adaptabilidad. Está diseñado para ofrecer respuestas más útiles, seguras y contextualmente relevantes.

Este modelo representa un avance notable en la capacidad de comprender y resolver tareas complejas, desde problemas matemáticos hasta redacción profesional, programación y análisis en áreas como salud y finanzas.

Entre sus principales novedades, GPT-5 puede ajustar su nivel de “esfuerzo cognitivo” según la tarea, lo que permite respuestas más rápidas o más profundas dependiendo del contexto. También ofrece explicaciones previas antes de utilizar herramientas externas, lo que mejora la transparencia en sus decisiones. Además, se ha optimizado para interactuar de forma más natural y eficiente, adaptándose al estilo y necesidades del usuario sin requerir configuraciones manuales.

El modelo está disponible en distintos planes: gratuito, Plus ($20/mes), Pro ($200/mes) y empresarial. Incluso en la versión gratuita se puede acceder a GPT-5, aunque con

Principales mejoras

  • Razonamiento avanzado: GPT-5 se comporta como un experto con doctorado en múltiples disciplinas. Puede resolver problemas complejos de matemáticas, ciencias, programación y salud.
  • Codificación instantánea: Capaz de generar software funcional completo a partir de simples instrucciones en texto, lo que OpenAI denomina “vibe-coding”.
  • Redacción profesional: Mejora la calidad, coherencia y estilo de textos técnicos, creativos y empresariales.
  • Salud y finanzas: Ofrece respuestas más precisas en temas médicos y financieros, aunque no sustituye a profesionales humanos.
  • Interacción adaptativa: El modelo decide en tiempo real qué priorizar (velocidad, profundidad, estilo) según la tarea, sin necesidad de seleccionar versiones específicas.

ciertas limitaciones.

Sam Altman, CEO de OpenAI, ha comparado su impacto con el del primer iPhone, destacando que aunque el salto respecto a GPT-4 no es radical, GPT-5 sobresale por su fiabilidad y competencia general.

El 51.8% de las citas proporcionadas por ChatGPT son inventadas, falsas o inexistentes

Oladokun, Bolaji David, Rexwhite Tega Enakrire, Adefila Kolawole Emmanuel, Yusuf Ayodeji Ajani, y Adebowale Jeremy Adetayo. “Hallucination in Scientific Writing: Exploring Evidence from ChatGPT Versions 3.5 and 4o in Responses to Selected Questions in Librarianship.” Journal of the Association for Information Science and Technology, publicado en línea el 20 de abril de 2025. https://doi.org/10.1080/19322909.2025.2482093

El uso acelerado de la inteligencia artificial (IA) en la redacción académica, especialmente con herramientas como ChatGPT, ha generado preocupaciones importantes sobre la veracidad y la precisión de los contenidos generados por estas tecnologías. En particular, un fenómeno llamado “alucinación” —que se refiere a la invención o fabricación de información, en este caso, citas bibliográficas falsas o inexistentes— representa un riesgo significativo para la calidad y la confiabilidad de los trabajos científicos.

Este estudio se centra en analizar cómo se manifiesta esta alucinación en dos versiones de ChatGPT, la 3.5 y la 4o, cuando se les plantea preguntas relacionadas con la bibliotecología y ciencias de la información. Para ello, los autores diseñaron un experimento en el que ChatGPT generó contenido científico con citas, las cuales fueron posteriormente verificadas de forma sistemática a través de Google Scholar y los sitios web oficiales de las editoriales.

Los resultados fueron preocupantes: ambas versiones de ChatGPT presentaron un alto porcentaje de citas falsas o no existentes. En concreto, la versión 3.5 fabricó un 42,9% de citas inexistentes, mientras que la versión 4o aumentó este porcentaje hasta el 51,8%. Aunque hubo una ligera mejora en la precisión de las citas reales, con tasas de acierto del 3,92% en la versión 3.5 y del 6,35% en la versión 4o, estas cifras son muy bajas y evidencian limitaciones graves en ambos modelos.

Las diferencias entre las versiones también fueron notables en el tipo de errores cometidos: ChatGPT 3.5 tendía a inventar fuentes completamente ficticias, mientras que ChatGPT 4o generaba errores más sutiles, como citar artículos reales pero atribuyéndolos a revistas incorrectas o mezclando detalles bibliográficos. Esto implica que, aunque la versión más avanzada pueda parecer más sofisticada, los riesgos de información errónea persisten y pueden pasar desapercibidos con mayor facilidad.

Finalmente, el estudio concluye que no existe una diferencia estadísticamente significativa en la precisión entre las dos versiones evaluadas, lo que subraya la importancia de no confiar ciegamente en las citas generadas por IA en la redacción científica. Los autores llaman a una verificación rigurosa y crítica de todo contenido bibliográfico producido por inteligencia artificial, con el fin de preservar la integridad y la credibilidad de la investigación académica.

Wiley defiende los derechos de autor frente al uso no autorizado de contenidos en la inteligencia artificial

Wiley. 2025. Wiley Position Statement on Illegal Scraping of Copyrighted Content by AI Developers. May 7, 2025. https://www.wiley.com/en-us/position-statement-ai-scraping

En su declaración oficial, Wiley —una de las editoriales académicas más antiguas y reconocidas del mundo— reafirma su postura firme en defensa de los derechos de propiedad intelectual ante el creciente uso de contenidos protegidos en el entrenamiento de modelos de inteligencia artificial. Subraya que la innovación tecnológica debe avanzar de la mano de prácticas éticas y legales, especialmente en lo que respecta al uso de obras creadas por autores, investigadores y comunidades académicas.

Wiley comienza recordando su compromiso histórico con la creación y difusión del conocimiento, destacando que este progreso solo es posible si se respeta el trabajo intelectual de quienes generan contenidos. Reconoce el valor transformador de la inteligencia artificial para la investigación y el descubrimiento, pero advierte que dicho avance debe asentarse sobre una base de respeto a los derechos de autor, atribución adecuada y compensación justa.

En este sentido, la editorial exige que los desarrolladores de IA soliciten autorización expresa antes de utilizar materiales de su propiedad o publicados en colaboración con sus socios. Wiley deja claro que no existe ningún tipo de permiso implícito, y que todos los derechos están reservados, salvo que se obtenga una licencia formal.

Además, se insiste en que la atribución transparente y la trazabilidad del origen de los datos son principios clave del desarrollo ético de IA. Wiley ha desarrollado marcos de licenciamiento flexibles y adaptables, que permiten a los desarrolladores acceder de forma legal a contenidos protegidos, en función de sus necesidades específicas.

El comunicado también subraya que ya existen numerosos acuerdos exitosos entre editoriales científicas (STM y comerciales) y empresas de IA, incluidos acuerdos firmados por la propia Wiley. Estos pactos demuestran que el mercado de licencias de contenidos para IA no solo es viable, sino que ya está en funcionamiento.

Más allá del aspecto legal, Wiley resalta el valor de establecer colaboraciones activas con la comunidad de desarrolladores de IA para promover estándares compartidos que incluyan transparencia, citación adecuada, atribución y procedencia de los datos. Esto no solo garantiza el respeto por los creadores, sino que también contribuye a generar confianza entre los usuarios de sistemas de IA.

En conclusión, Wiley aboga por un ecosistema sostenible donde la tecnología y la creatividad humana coexistan armónicamente. La editorial invita a autores, investigadores, desarrolladores éticos de IA y otras editoriales a participar activamente en la construcción de un marco de innovación responsable, donde los derechos de los creadores sean preservados y reconocidos como base de cualquier avance significativo en el campo de la inteligencia artificial.

ChatGPT permite usar la cámara del móvil para que la IA analice lo que ve y responda en tiempo real.

Advanced Voice Mode

Con la incorporación reciente de visión (Advanced Voice Mode con visión), ahora también puede interpretar lo que ve a través de la cámara del dispositivo o lo que aparece en la pantalla mediante el uso compartido de pantalla.

OpenAI ha lanzado una nueva función para ChatGPT llamada Advanced Voice Mode con visión, que permite usar la cámara del móvil para que la IA analice lo que ve y responda en tiempo real. Por ejemplo, puedes apuntar a un objeto y ChatGPT te dirá qué es. Además, ahora puede entender lo que aparece en la pantalla de tu dispositivo mediante el uso compartido de pantalla, ayudándote con configuraciones o incluso con problemas matemáticos.

Esta función está disponible para los usuarios de las suscripciones Plus, Team y Pro de ChatGPT. Para usarla, solo hay que tocar el icono de video en la app o activar la opción de «compartir pantalla» desde el menú. Sin embargo, no todos tendrán acceso inmediato: los usuarios de la UE, Suiza, Islandia, Noruega y Liechtenstein tendrán que esperar, al igual que los suscriptores de ChatGPT Enterprise y Edu, que lo recibirán en enero.

Durante las pruebas, ChatGPT mostró habilidades interesantes, como interpretar dibujos anatómicos en tiempo real, aunque también cometió errores en problemas de geometría. Esto demuestra que la función aún puede fallar, pero marca un gran avance en el uso de inteligencia artificial para interactuar con el mundo real.

¿Qué es Advanced Voice Mode de OpenAI?
Advanced Voice Mode es una función de ChatGPT que permite interactuar de manera más natural con la inteligencia artificial utilizando la voz. Esta tecnología hace que ChatGPT sea capaz de responder en tiempo real con una voz humanizada y mantener conversaciones más fluidas, como si estuvieras hablando con otra persona.

Con la incorporación reciente de visión (Advanced Voice Mode con visión), ahora también puede interpretar lo que ve a través de la cámara del dispositivo o lo que aparece en la pantalla mediante el uso compartido de pantalla.


¿Qué se puede hacer con Advanced Voice Mode?

  1. Conversaciones por voz:
    Habla con ChatGPT en lugar de escribir, y recibe respuestas habladas de forma natural. Ideal para cuando necesitas manos libres o quieres una interacción más directa.
  2. Reconocimiento visual en tiempo real:
    Apunta la cámara del móvil hacia un objeto y ChatGPT puede identificarlo o describirlo. Por ejemplo, podría reconocer un utensilio de cocina, una planta o un dispositivo tecnológico.
  3. Interacción con la pantalla del dispositivo:
    Al compartir la pantalla, ChatGPT puede interpretar menús, configuraciones o aplicaciones, y ayudarte a navegar por ellas o resolver problemas. Por ejemplo:
    • Explicar opciones en la configuración del teléfono.
    • Dar sugerencias para resolver problemas matemáticos que se muestran en la pantalla.
  4. Asistencia en tareas visuales:
    ChatGPT puede analizar dibujos o imágenes en tiempo real. Por ejemplo, puede evaluar un boceto, identificar formas o sugerir mejoras.
  5. Experiencia personalizada:
    Gracias a su capacidad de comprensión multimodal, combina texto, voz y visión para ofrecer respuestas adaptadas y ricas en contexto.

OpenAI también lanzó una función adicional llamada  “Santa Mode,”, que permite cambiar la voz de ChatGPT a la de Santa Claus, agregando un toque festivo para esta temporada navideña. Mientras tanto, otras empresas como Google y Meta trabajan en funciones similares para sus propios asistentes de IA.

ChatGPT para tareas complejas de evaluación de textos

Thelwall, M. (2024). ChatGPT for complex text evaluation tasksJournal of the Association for Information Science and Technology, 1–4. https://doi.org/10.1002/asi.24966

ChatGPT y otros modelos de lenguaje a gran escala (LLMs) han demostrado ser efectivos en tareas de procesamiento de lenguaje natural y computacional con diversos niveles de complejidad. Este documento resume las lecciones aprendidas de una serie de investigaciones sobre su uso en la evaluación de calidad de investigaciones, una tarea compleja de análisis de textos.

En términos generales, ChatGPT destaca por su capacidad para comprender y ejecutar tareas complejas de procesamiento de textos, produciendo respuestas plausibles con un mínimo de intervención por parte del investigador. Sin embargo, los resultados deben ser evaluados sistemáticamente, ya que pueden ser engañosos. A diferencia de las tareas simples, los resultados en tareas complejas son muy variables, y se pueden obtener mejores resultados repitiendo los comandos en sesiones diferentes y promediando las respuestas obtenidas. Modificar los parámetros de configuración de ChatGPT respecto a sus valores predeterminados no parece ser útil, excepto en lo relacionado con la extensión del texto solicitado en las respuestas.

Capacidad de Procesamiento Complejo: ChatGPT es muy hábil para realizar tareas de análisis textual complejo, generando respuestas plausibles con instrucciones detalladas. Sin embargo, sus resultados no siempre son precisos y requieren validación sistemática.

Variabilidad en Tareas Complejas: A diferencia de tareas simples (como análisis de sentimiento), los resultados en evaluaciones complejas varían significativamente. Mejores resultados se obtienen al repetir los comandos múltiples veces y promediando las respuestas.

Configuración del Modelo: Cambiar parámetros predeterminados no suele mejorar los resultados, salvo ajustes en la longitud de la salida. Modelos más avanzados (como GPT-4o frente a 4o-mini) ofrecen mejor desempeño, pero versiones económicas pueden ser una opción práctica.

Estructura de las Instrucciones: Instrucciones complejas y detalladas, adaptadas del formato usado por evaluadores humanos, producen mejores resultados. Sin embargo, instrucciones más breves y simplificadas tienden a disminuir la precisión.

Evaluación y Limitaciones: ChatGPT puede producir salidas plausibles, pero estas no siempre reflejan una evaluación significativa. Por ejemplo, al evaluar artículos basándose en títulos y resúmenes en lugar del texto completo, ChatGPT ofrece mejores resultados, probablemente debido a la concisión de la información.

Uso de Información Condensada: Aunque puede manejar textos extensos, ChatGPT parece ser más efectivo al trabajar con entradas resumidas, como títulos y resúmenes, en lugar de textos completos, evitando sobrecarga de información irrelevante.

Financiación y Costos: Realizar evaluaciones sistemáticas con múltiples iteraciones implica altos costos en el uso de la API. Por ello, las versiones más económicas de los modelos, aunque menos precisas, pueden ser adecuadas para ciertos proyectos.

Fine-Tuning: La personalización del modelo mediante fine-tuning es efectiva en tareas simples, pero no parece prometedora para evaluaciones complejas debido a la diversidad de salidas posibles y la falta de patrones consistentes en evaluaciones humanas.

Como conclusión puede decirse que ChatGPT muestra un gran potencial en la evaluación académica, pero sus limitaciones subrayan la necesidad de realizar validaciones exhaustivas. Los investigadores deben considerar enfoques sistemáticos, como repetir comandos y ajustar configuraciones, para optimizar resultados. Aunque aún quedan cuestiones abiertas, como el papel del fine-tuning en estas tareas, los resultados sugieren que LLMs pueden complementar, pero no reemplazar, las evaluaciones humanas en tareas complejas.

ChatGPT ya es capaz de catalogar libros en formato Marc 21

ChatGPT puede ayudarte a crear un registro MARC 21 de manera manual, proporcionando el formato correcto y ayudándote a organizar los campos de manera adecuada.

A continuación os proporciono un ejemplo de cómo sería el registro en formato MARC 21 para el libro Luisa Mora Villarejo, Un legado común: las donaciones recibidas en el siglo XXI en la Biblioteca Islámica «Félix María Pareja» (Agencia Española de Cooperación Internacional para el Desarrollo, 2023), Para ello he copiado la información textual del catálogo y lo he pegado en ChatGPT, pidiendo que me elabore un registro MARC 21 de este libro. El resultado es este:

=LDR  01716cam a2200361 i 4500
=001 0000000001
=005 20231211
=008 231211s2023 sp 000 0 spa
=020 ## $a 9788483471937
=020 ## $a 109-23-042-X
=035 ## $a (NIPO) 0000000001
=035 ## $a (DL) M 33141-2023
=041 0# $a spa
=100 1# $a Mora Villarejo, Luisa, $e autor.
=245 10 $a Un legado común : $b las donaciones recibidas en el siglo XXI en la Biblioteca Islámica 'Félix María Pareja' / $c Luisa Mora Villarejo.
=260 ## $a Madrid : $b Agencia Española de Cooperación Internacional para el Desarrollo, Ministerio de Asuntos Exteriores, Unión Europea y Cooperación, $c 2023.
=300 ## $a 184 p. : $b il. col. ; $c 24 cm.
=490 1# $a Ciencias y humanismo (Agencia Española de Cooperación Internacional)
=504 ## $a Bibliografía: p. 155-159.
=520 ## $a El libro aborda las donaciones recibidas en el siglo XXI por la Biblioteca Islámica 'Félix María Pareja', destacando las bibliotecas personales donadas por figuras del arabismo y la cooperación cultural entre España y los países árabes.
=650 0# $a Agencia Española de Cooperación Internacional para el Desarrollo. $v Biblioteca.
=650 0# $a Bibliotecas $x Historia.
=650 0# $a Cooperación cultural de España.
=650 0# $a Arabistas españoles.
=650 0# $a Relaciones España-Países árabes.
=650 0# $a Colecciones especiales.
=710 2# $a Agencia Española de Cooperación Internacional para el Desarrollo, $e emisor.
=830 0# $a Ciencias y humanismo (Agencia Española de Cooperación Internacional)
=856 41 $u http://creativecommons.org/licenses/by-nc-sa/4.0/ $z Licencia Creative Commons - Attribution, Non-Commercial, ShareAlike (BY-NC-SA)

La herramienta también nos explica que es cada uno de los campos.

Explicación de los campos principales:

  • =245: Título completo, en este caso incluye el título y subtítulo del libro.
  • =260: Información de publicación, que incluye el lugar de publicación, el editor y la fecha de publicación.
  • =300: Descripción física del libro, que indica el número de páginas y el tamaño.
  • =504: Nota bibliográfica que incluye la bibliografía.
  • =520: Resumen o sinopsis del contenido del libro.
  • =650: Descriptores de temas que ayudan a clasificar el libro, en este caso relacionados con bibliotecas, makerspaces e innovación.
  • =852: Información sobre la ubicación del libro, en este caso, una biblioteca central.

Este es un ejemplo de cómo se podría estructurar el registro de este libro en un sistema de catalogación MARC 21 para una biblioteca.

¿Está ChatGPT más cerca de un bibliotecario humano que de Google?

Brandom, David. ChatGPT: An AI OpenAI Like a Librarian, Search Google. [Gizmodo]. 2024-06-13. https://gizmodo.com/chatgpt-ai-openai-like-a-librarian-search-google-1850238908

El modelo predominante de acceso y recuperación de información antes de que los motores de búsqueda se convirtieran en la norma -bibliotecarios y expertos en la materia o en la búsqueda que proporcionaban información relevante- era interactivo, personalizado, transparente y autorizado. Hoy en día, los motores de búsqueda son la principal forma de acceder a la información, pero introducir unas cuantas palabras clave y obtener una lista de resultados ordenados por alguna función desconocida no es lo ideal.

Una nueva generación de sistemas de acceso a la información basados en inteligencia artificial, como Bing/ChatGPT de Microsoft, Google/Gemini y Meta/LLaMA, está cambiando el modo tradicional de entrada y salida de los motores de búsqueda. Estos sistemas son capaces de tomar frases completas e incluso párrafos como entrada y generar respuestas personalizadas en lenguaje natural.

Casi 4.000 empleos se perdieron el mes pasado a causa de la IA, según un informe
Nvidia afirma que su nuevo superordenador «cierra oficialmente la brecha digital». Las antiguas predicciones sobre IA demuestran que nuestras esperanzas y temores no son nuevos, aunque la tecnología sí lo sea

A primera vista, esto podría parecer lo mejor de ambos mundos: respuestas personales y personalizadas combinadas con la amplitud y profundidad del conocimiento en Internet. Pero como investigador que estudia los sistemas de búsqueda y recomendación, creo que el panorama es, en el mejor de los casos, contradictorio.

Los sistemas de IA como ChatGPT y Gemini se basan en grandes modelos lingüísticos. Un modelo lingüístico es una técnica de aprendizaje automático que utiliza una gran cantidad de textos disponibles, como artículos de Wikipedia y PubMed, para aprender patrones. En términos sencillos, estos modelos calculan qué palabra es probable que venga a continuación, dado un conjunto de palabras o una frase. De este modo, son capaces de generar frases, párrafos e incluso páginas que corresponden a una consulta de un usuario.

Gracias al entrenamiento sobre grandes volúmenes de texto, el ajuste fino y otros métodos basados en el aprendizaje automático, este tipo de técnica de recuperación de información funciona con bastante eficacia. Los grandes sistemas basados en modelos lingüísticos generan respuestas personalizadas para satisfacer las consultas de información. Los resultados han sido tan impresionantes que ChatGPT alcanzó los 100 millones de usuarios en un tercio del tiempo que tardó TikTok en llegar a ese hito. La gente lo ha utilizado no sólo para encontrar respuestas, sino para generar diagnósticos, crear planes de dieta y hacer recomendaciones de inversión.

Sin embargo, hay muchos inconvenientes. En primer lugar, consideremos lo que constituye el núcleo de un gran modelo lingüístico: un mecanismo mediante el cual conecta las palabras y, presumiblemente, sus significados. Esto produce un resultado que a menudo parece una respuesta inteligente, pero se sabe que los grandes sistemas de modelos lingüísticos producen declaraciones casi como loros sin una comprensión real. Así, aunque el resultado generado por estos sistemas pueda parecer inteligente, no es más que un reflejo de patrones subyacentes de palabras que la IA ha encontrado en un contexto apropiado.

Esta limitación hace que los grandes sistemas de modelos lingüísticos sean susceptibles de inventar o «alucinar» respuestas. Los sistemas tampoco son lo suficientemente inteligentes como para entender la premisa incorrecta de una pregunta y responder de todos modos a preguntas erróneas. Por ejemplo, cuando se le pregunta qué cara de presidente de EE.UU. aparece en el billete de 100 dólares, ChatGPT responde Benjamin Franklin sin darse cuenta de que Franklin nunca fue presidente y de que la premisa de que el billete de 100 dólares tiene la foto de un presidente de EE.UU. es incorrecta.

El problema es que, aunque estos sistemas se equivoquen sólo un 10% de las veces, no se sabe qué 10%. La gente tampoco tiene la capacidad de validar rápidamente las respuestas de los sistemas. Esto se debe a que estos sistemas carecen de transparencia: no revelan con qué datos se han entrenado, qué fuentes han utilizado para dar respuestas o cómo se generan esas respuestas.

Por ejemplo, puedes pedirle a ChatGPT que escriba un informe técnico con citas. Pero a menudo se inventa estas citas, «alucinando» tanto con los títulos de los artículos académicos como con los autores. Los sistemas tampoco validan la exactitud de sus respuestas. Esto deja la validación en manos del usuario, y los usuarios pueden no tener la motivación o las habilidades para hacerlo o incluso reconocer la necesidad de comprobar las respuestas de una IA. ChatGPT no sabe cuándo una pregunta no tiene sentido, porque no conoce ningún dato.

Aunque la falta de transparencia puede ser perjudicial para los usuarios, también es injusta para los autores, artistas y creadores de los contenidos originales de los que han aprendido los sistemas, ya que éstos no revelan sus fuentes ni proporcionan atribuciones suficientes. En la mayoría de los casos, los creadores no son compensados ni acreditados, ni se les da la oportunidad de dar su consentimiento.

Esto también tiene un aspecto económico. En un motor de búsqueda típico, los resultados se muestran con los enlaces a las fuentes. Esto no sólo permite al usuario verificar las respuestas y proporciona las atribuciones a esas fuentes, sino que también genera tráfico para esos sitios. Muchas de estas fuentes dependen de este tráfico para sus ingresos. Dado que los grandes sistemas de modelos lingüísticos producen respuestas directas, pero no las fuentes de las que proceden, creo que es probable que esos sitios vean disminuir sus fuentes de ingresos.

Por último, esta nueva forma de acceder a la información también puede restar poder a las personas y quitarles la oportunidad de aprender. Un proceso de búsqueda típico permite a los usuarios explorar el abanico de posibilidades para sus necesidades de información, lo que a menudo les lleva a ajustar lo que buscan. También les da la oportunidad de aprender qué hay ahí fuera y cómo se conectan las distintas piezas de información para realizar sus tareas. Y permite encuentros accidentales o serendipia.

Son aspectos muy importantes de la búsqueda, pero cuando un sistema produce los resultados sin mostrar sus fuentes ni guiar al usuario a través de un proceso, le priva de estas posibilidades.

Los grandes modelos lingüísticos suponen un gran avance en el acceso a la información, ya que ofrecen a las personas una forma de interactuar basada en el lenguaje natural, producir respuestas personalizadas y descubrir respuestas y patrones que a menudo resultan difíciles de imaginar para un usuario medio. Pero tienen graves limitaciones por la forma en que aprenden y construyen las respuestas. Sus respuestas pueden ser erróneas, tóxicas o sesgadas.

Aunque otros sistemas de acceso a la información también pueden adolecer de estos problemas, los sistemas de IA con grandes modelos lingüísticos también carecen de transparencia. Y lo que es peor, sus respuestas en lenguaje natural pueden contribuir a alimentar una falsa sensación de confianza y autoridad que puede resultar peligrosa para los usuarios desinformados.

OpenAI y Apple anuncian una colaboración para Integrar ChatGPT en las experiencias de Apple

«OpenAI and Apple Announce Partnership». Accedido 13 de junio de 2024. https://openai.com/index/openai-and-apple-announce-partnership/.

Apple está integrando ChatGPT en las experiencias dentro de iOS, iPadOS y macOS, permitiendo a los usuarios acceder a las capacidades de ChatGPT, incluyendo la comprensión de imágenes y documentos, sin necesidad de cambiar entre herramientas.

Siri también podrá utilizar la inteligencia de ChatGPT cuando sea útil. Los usuarios de Apple serán consultados antes de que cualquier pregunta se envíe a ChatGPT, junto con cualquier documento o foto, y luego Siri presentará la respuesta directamente.

Además, ChatGPT estará disponible en las Herramientas de Escritura de todo el sistema de Apple, para ayudar a los usuarios a generar contenido sobre cualquier tema que estén escribiendo. Los usuarios también podrán utilizar las herramientas de imágenes de ChatGPT para generar imágenes en una amplia variedad de estilos que complementen lo que están escribiendo.

Las protecciones de privacidad están integradas al acceder a ChatGPT dentro de Siri y Herramientas de Escritura: las solicitudes no son almacenadas por OpenAI y las direcciones IP de los usuarios están ocultas. Los usuarios también pueden optar por conectar su cuenta de ChatGPT, lo que significa que sus preferencias de datos se aplicarán bajo las políticas de ChatGPT.

La integración de ChatGPT, impulsada por GPT-4o, llegará a iOS, iPadOS y macOS a finales de este año. Los usuarios podrán acceder de forma gratuita sin crear una cuenta, y los suscriptores de ChatGPT podrán conectar sus cuentas y acceder a funciones pagas directamente desde estas experiencias.

El Origen de la Información en ChatGPT con la Herramienta RAGE


«El Origen de la Información en ChatGPT con la Herramienta RAGE», 6 de junio de 2024. https://wwwhatsnew.com/2024/06/06/el-origen-de-la-informacion-en-chatgpt-con-la-herramienta-rage/.

La inteligencia artificial sigue avanzando a pasos agigantados, pero con estos avances surgen nuevos desafíos. Uno de los problemas más preocupantes es entender de dónde proviene la información que nos proporcionan los modelos de lenguaje como ChatGPT. Aquí entra en juego una innovadora herramienta desarrollada por un equipo de la Universidad de Waterloo: RAGE.

La Importancia de Saber de Dónde Proviene la Información

En la era digital, los modelos de lenguaje grande (LLMs), como ChatGPT, se han convertido en herramientas fundamentales en diversas áreas, desde la medicina hasta el derecho. Sin embargo, estos modelos no están exentos de problemas. Al funcionar mediante el «aprendizaje profundo no supervisado», recopilan información de toda la web de maneras que pueden ser complicadas de rastrear.

Problemas de Confiabilidad

Un problema común con los LLMs es la alucinación. Es decir, estos modelos pueden generar respuestas que parecen coherentes y precisas, pero que en realidad están basadas en información incorrecta o inexistente. Esto plantea un gran desafío, especialmente cuando las respuestas se utilizan en contextos críticos.

La Necesidad de Transparencia

Como bien señala Joel Rorseth, estudiante de doctorado en ciencias de la computación en la Universidad de Waterloo y autor principal del estudio, «no puedes necesariamente confiar en que un LLM se explique a sí mismo». Es vital que podamos verificar las fuentes de información que utilizan estos modelos para asegurarnos de su fiabilidad.

La Solución: La Herramienta RAGE

¿Qué es RAGE?

RAGE es una herramienta que utiliza una estrategia llamada «generación aumentada por recuperación» (RAG) para entender el contexto de las respuestas proporcionadas por los LLMs. En lugar de confiar ciegamente en las respuestas generadas, RAGE permite a los usuarios proporcionar sus propias fuentes de información para contextualizar las respuestas.

¿Cómo Funciona?

La herramienta ilustra cómo diferentes fuentes pueden llevar a distintas respuestas. Esto es crucial para evaluar la confiabilidad de la información. Al utilizar RAGE, los usuarios pueden ver de manera clara cómo la información de diferentes fuentes afecta las respuestas de los modelos.

Aplicaciones Prácticas

En la Medicina y el Derecho

El uso de LLMs en sectores sensibles como la medicina y el derecho está en aumento. Sin embargo, la falta de transparencia en la fuente de información puede ser peligrosa. RAGE permite asegurar que las respuestas de estos modelos estén basadas en información precisa y confiable, algo esencial en estos campos.

En la Educación

En el ámbito educativo, los estudiantes y profesores pueden beneficiarse enormemente. Pueden verificar y validar la información proporcionada por los modelos de lenguaje, asegurándose de que las fuentes sean fiables.

El Futuro de la Regulación y la Innovación

Estamos en una época donde la innovación tecnológica ha superado la regulación. Es vital que entendamos los riesgos potenciales de usar estas tecnologías sin un marco regulatorio adecuado. Herramientas como RAGE son esenciales para garantizar que los productos de inteligencia artificial sean seguros y confiables.

Referencias
Joel Rorseth et al, RAGE Against the Machine: Retrieval-Augmented LLM Explanations, arXiv (2024). DOI: 10.48550/arxiv.2405.13000

OpenAI lanza GPT-4o, su nuevo modelo de IA Gratuito con respuestas en tiempo real y capacidades de entendimiento de audio y video capaz de detectar emociones

Wiggers, Kyle. «OpenAI Debuts GPT-4o “omni” Model Now Powering ChatGPT». TechCrunch, 13 de mayo de 2024. https://techcrunch.com/2024/05/13/openais-newest-model-is-gpt-4o/.


OpenAI recientemente presentó su última novedad de inteligencia artificial, GPT-4o, e introdujo una versión de escritorio de ChatGPT, brindando un conjunto de funciones mejoradas al alcance de todos los usuarios de forma gratuita. GPT-4o («o» de «omni») es un paso adelante hacia una interacción mucho más natural entre el ser humano y el ordenador: acepta como entrada cualquier combinación de texto, audio e imagen y genera cualquier combinación de texto, audio e imagen como salida.

OpenAI lanzó el lunes un nuevo modelo de IA y una versión de escritorio de ChatGPT, junto con una nueva interfaz de usuario. La actualización pone GPT-4 a disposición de todo el mundo, incluidos los usuarios gratuitos de OpenAI, según explicó la directora técnica Mira Murati en un evento retransmitido en directo. Añadió que el nuevo modelo, GPT-4o, es «mucho más rápido», con capacidades mejoradas en texto, vídeo y audio.

Los miembros del equipo de OpenAI también demostraron las capacidades de audio del nuevo modelo, pidiendo ayuda para calmarse antes de un discurso público. Mark Chen, investigador de OpenAI, afirmó que el modelo es capaz de «percibir tus emociones», y añadió que también puede hacer frente a las interrupciones de los usuarios.

Durante la retransmisión en directo, OpenAI demostró las capacidades de conversación de audio en tiempo real de GPT-4o, mostrando su capacidad para entablar un diálogo natural y receptivo sin el típico retraso de 2-3 segundos experimentado con modelos anteriores. El asistente de IA parecía captar fácilmente las emociones, adaptaba su tono y estilo a las peticiones del usuario e incluso incorporaba efectos de sonido, risas y canciones a sus respuestas.

Cuando esté disponible, nos encontraremos con un asistente con el que podremos comunicarnos de manera completamente natural, como lo haríamos con otro ser humano. Podremos interrumpirlo mientras responde, características que hasta ahora no se habían visto en ninguna otra IA. El modelo no solo ofrece respuestas instantáneas, sino que también proporciona respuestas en una variedad de tonos de voz, e incluso puede reír, cantar, expresar diferentes estados de ánimo y resolver problemas matemáticos. Una de las características destacadas que llegará a ChatGPT gracias al nuevo modelo es la traducción instantánea. OpenAI busca que simplemente le pidamos lo que queramos al chatbot para que comience a hacer su trabajo, todo en lenguaje natural, sin necesidad de pensar en comandos específicos.

Además, se destacó la comprensión visual mejorada de GPT-4o. Al cargar capturas de pantalla, documentos que contienen texto e imágenes o gráficos, los usuarios pueden mantener conversaciones sobre el contenido visual y recibir análisis de datos de GPT-4o. En la demostración, el modelo demostró su capacidad para analizar selfies, detectar emociones y participar en bromas animadas sobre las imágenes.

Las características disponibles para los usuarios gratuitos de ChatGPT incluirán inteligencia de nivel GPT-4, respuestas tanto del modelo como de la web, análisis de datos y creación de gráficos, conversaciones sobre fotos tomadas, asistencia para resumir, escribir o analizar archivos cargados, y la posibilidad de descubrir y utilizar GPTs y la tienda GPT para construir una experiencia más útil con la función de Memoria.

Entre las funciones disponibles para los usuarios gratuitos de ChatGPT a partir de ahora se incluyen las siguientes, según OpenAI:

  • Experiencia de inteligencia de nivel GPT-4
  • Obtener respuestas tanto del modelo como de la web
  • Analizar datos y crear gráficos
  • Conversa sobre las fotos que haces
  • Sube archivos para que te ayuden a resumir, escribir o analizar
  • Descubrir y utilizar GPTs y el GPT Store
  • Construye una experiencia más útil con la Memoria