Las herramientas de detección de texto mediante inteligencia artificial son muy fáciles de engañar

Weber-Wulff, Debora, Alla Anohina-Naumeca, Sonja Bjelobaba, Tomáš Foltýnek, Jean Guerrero-Dib, Olumide Popoola, Petr Šigut, y Lorna Waddington. «Testing of Detection Tools for AI-Generated Text». arXiv, 21 de junio de 2023. https://doi.org/10.48550/arXiv.2306.15666.

Después de semanas después del lanzamiento de ChatGPT, surgieron temores de que los estudiantes utilizaran el chatbot para generar ensayos aceptables en cuestión de segundos. En respuesta a estos temores, las startups comenzaron a desarrollar productos que prometían detectar si un texto había sido escrito por un humano o por una máquina.

El problema es que, según una nueva investigación que aún no ha sido revisada por pares, es relativamente fácil engañar estas herramientas y evitar su detección. Debora Weber-Wulff, profesora de medios y computación en la Universidad de Ciencias Aplicadas, HTW Berlin, trabajó con un grupo de investigadores de diversas universidades para evaluar la capacidad de 14 herramientas, incluyendo Turnitin, GPT Zero y Compilatio, para detectar textos escritos por ChatGPT de OpenAI.

La mayoría de estas herramientas funcionan buscando características distintivas de textos generados por IA, como la repetición, y luego calculando la probabilidad de que el texto haya sido generado por una IA. Sin embargo, el equipo descubrió que todas las herramientas probadas tenían dificultades para detectar textos generados por ChatGPT que habían sido ligeramente reorganizados por humanos y ocultados por una herramienta de parafraseo, lo que sugiere que todo lo que los estudiantes necesitan hacer es adaptar ligeramente los ensayos generados por la IA para evadir los detectores.

Los investigadores evaluaron las herramientas escribiendo ensayos cortos de nivel universitario sobre una variedad de temas, que incluían ingeniería civil, ciencias de la computación, economía, historia, lingüística y literatura. Los ensayos fueron escritos por los propios investigadores para asegurarse de que el texto no estuviera ya en línea, lo que significaría que podría haber sido utilizado para entrenar a ChatGPT. Luego, cada investigador escribió un texto adicional en bosnio, checo, alemán, letón, eslovaco, español o sueco. Esos textos se pasaron por la herramienta de traducción de IA DeepL o Google Translate para traducirlos al inglés.

El equipo luego utilizó ChatGPT para generar otros dos textos cada uno, que modificaron ligeramente en un intento de ocultar que habían sido generados por IA. Un conjunto fue editado manualmente por los investigadores, que reorganizaron las oraciones e intercambiaron palabras, mientras que otro fue reescrito utilizando una herramienta de parafraseo de IA llamada Quillbot. Al final, tenían 54 documentos para probar las herramientas de detección.

Descubrieron que si bien las herramientas eran buenas para identificar textos escritos por humanos (con una precisión promedio del 96%), tenían un desempeño más deficiente cuando se trataba de detectar textos generados por IA, especialmente cuando habían sido editados. Aunque las herramientas identificaron textos generados por ChatGPT con un 74% de precisión, esta cifra disminuyó al 42% cuando el texto generado por ChatGPT había sido ligeramente modificado.

Compilatio, que fabrica una de las herramientas probadas por los investigadores, señala que es importante recordar que su sistema solo indica pasajes sospechosos, que clasifica como posible plagio o contenido potencialmente generado por IA.

Perspectivas de los bibliotecarios sobre la desinformación: Un estudio comparativo y de seguimiento

Saunders, Laura. «Librarian Perspectives on Misinformation: A Follow-Up and Comparative Study | Saunders | College & Research Libraries», 7 de julio de 2023. https://doi.org/10.5860/crl.84.4.478.

Mientras que los bibliotecarios universitarios han respondido rápidamente a la crisis de la desinformación a través de la enseñanza de la alfabetización informacional y el desarrollo de herramientas, existe poca investigación sobre el grado en que están enseñando habilidades de alfabetización informativa en el aula. Este estudio explora las perspectivas de los bibliotecarios universitarios sobre la desinformación y si están abordando la desinformación en su enseñanza.


Los hallazgos de este estudio indican que la mayoría de los bibliotecarios universitarios están preocupados por la desinformación y los impactos que está teniendo en la sociedad, en el campo de la bibliotecología y en la capacidad de los estudiantes para identificar y utilizar información confiable. Estos bibliotecarios consideran en gran medida que la alfabetización en noticias es una herramienta importante para combatir la desinformación, y la mayoría está integrando estos conceptos en su enseñanza. Sin embargo, algunos bibliotecarios también encuentran barreras para impartir esta instrucción, como la falta de tiempo y la falta de interés real o percibida por parte de los profesores en cuyos cursos ofrecen instrucción. Dado que los profesores también expresan preocupaciones similares sobre la desinformación y apoyan la alfabetización en noticias, pero a veces se muestran reacios a colaborar con los bibliotecarios o dedicar tiempo de clase a la instrucción de biblioteca, los bibliotecarios universitarios podrían llevar a cabo actividades de divulgación para aumentar la conciencia de los profesores sobre las formas en que los bibliotecarios pueden apoyar su enseñanza en estos temas. También podrían considerar talleres para capacitar a los profesores en estas áreas, lo que les permitiría brindar su propia instrucción. Por último, es importante asegurarse de que los bibliotecarios estén bien informados sobre las complejidades y matices de los problemas relacionados con la evaluación de la desinformación, y que estén proporcionando instrucción en enfoques basados en la evidencia para su evaluación. Dada la prevalencia del problema y el papel potencial de los bibliotecarios, las asociaciones profesionales y los programas de grado en biblioteconomía podrían ofrecer cursos destinados a desarrollar aún más el conocimiento pedagógico de los bibliotecarios para prepararlos mejor para abordar estos temas en su propia instrucción.

Por último, vale la pena señalar que aunque los bibliotecarios pueden estar brindando instrucción en alfabetización en noticias, según los resultados de este estudio, en general no están evaluando los resultados de aprendizaje relacionados con esas habilidades. Solo alrededor del 10 por ciento de los bibliotecarios encuestados indicaron que evalúan la capacidad de los estudiantes para identificar o evaluar la desinformación, y aún menos colaboran con los profesores en la evaluación. En cierta medida, la falta de evaluación probablemente se debe al formato de una sola sesión, en el cual los bibliotecarios generalmente no tienen la oportunidad de asignar tareas ni ver las tareas a las que a menudo se ajustan sus sesiones. Como tal, las calificaciones de los bibliotecarios sobre las habilidades de los estudiantes deben considerarse estimaciones en la mayoría de los casos, y de hecho, en una respuesta abierta, un bibliotecario señaló que «por lo general no veo el resultado final de las tareas de pregrado, por lo que no puedo responder algunas de las preguntas anteriores». Sin embargo, los datos de evaluación podrían ayudar a establecer la eficacia (o la falta de ella) de los programas de instrucción en alfabetización en noticias, lo que a su vez podría ser una forma de involucrar a los profesores reticentes sobre el tema y ayudar a reforzar el papel de los bibliotecarios en la instrucción relacionada en el aula. Como tal, sería conveniente que los bibliotecarios de instrucción integren alguna forma de evaluación en su instrucción. Una vez más, los programas de grado en ciencias de la información y biblioteconomía desempeñarán un papel en proporcionar a los bibliotecarios emergentes los fundamentos pedagógicos para participar en dicha instrucción y evaluación.

Evaluación del valor de los datos y otros tipos de activos en data.europa.eu

Corcho, O., Alobaid, A., Amador, E., Assessment of the value of data and other types of assets in data.europa.eu, Publications Office of the European Union, 2023, https://data.europa.eu/doi/10.2830/192960

Investigaciones anteriores realizadas en el contexto del antiguo Portal Europeo de Datos exploraron conceptos, métodos y arquitecturas para hacer sostenibles los portales de datos (abiertos). Contribuyeron a que se produjera un cambio de paradigma en la comunidad de los datos abiertos, a saber, dejar de entender los portales principalmente como un medio para publicar y descubrir datos y replantearse los portales como fuentes de contenidos y recursos de valor añadido que facilitan la reutilización de los datos y fomentan las comunidades de datos. Este informe es el primero de una serie. La serie se basará en este trabajo previo y se centrará tanto en el valor de los datos y metadatos que contiene el portal data.europa.eu como en el valor de otros recursos disponibles en el portal (por ejemplo, documentación en forma de informes y publicaciones, herramientas e historias de datos). Para realizar este análisis, estamos desarrollando métodos (incluidos métodos computacionales, también conocidos como prototipos de software) para – evaluar el valor de los conjuntos de datos y sus recursos relacionados estudiando su presencia en otras plataformas digitales, herramientas y aplicaciones que utilizan habitualmente las comunidades de datos; – añadir valor a los conjuntos de datos y recursos recomendando otros conjuntos de datos y recursos relacionados y enriqueciendo su contenido para facilitar su uso en aplicaciones posteriores (por ejemplo, en aprendizaje automático).

Directrices para la formulación de políticas y planes maestros de TIC en educación

Miao, Fengchun.. et. al. Directrices para la formulación de políticas y planes maestros de TIC en educación. Unesco, 2023

Texto completo

Los países de todo el mundo llevan décadas aprovechando las tecnologías de la información y la comunicación (TIC) para impulsar la educación. Estas iniciativas son conducidas por instituciones públicas y cuentan con la participación de empresas tecnológicas comerciales, lo que ha dado lugar a paradojas tales como el aumento de las desigualdades digitales y el acceso desigual a oportunidades de aprendizaje digital de alta calidad. La crisis de COVID-19 exacerbó aún más esta tendencia: al menos un tercio de los estudiantes de todo el mundo no contaba con acceso a la educación a distancia durante el punto álgido de la crisis de COVID-19 en 2020.

Esta publicación ofrece orientación a las personas a cargo de formular políticas para que, al adoptar la tecnología, los derechos humanos, la inclusión, la equidad y la igualdad de género estén en el centro de las soluciones, y las innovaciones sean consideradas como un bien común. Con base en estos principios, la publicación presenta una visión del potencial de las tecnologías, centrada en el ser humano, desde las tecnologías de bajo ancho de banda hasta las emergentes, como la Inteligencia Artificial y la Web 3.0 o ‘metaverso’. Aboga por políticas nacionales que protejan el bienestar digital de docentes y estudiantes, reduzcan y neutralicen la huella de emisión digital y eviten el ‘tecnosolucionismo’.

Esta publicación propone marcos de planeamiento de políticas y una guía iterativa para examinar la preparación digital de los sistemas educativos locales, evaluar las necesidades de estudiantes y docentes, y planificar programas nacionales de TIC en educación con los recursos necesarios. Posteriormente, profundiza en ejemplos de planes maestros nacionales sobre el uso de las TIC en diferentes modalidades de educación.

La Ley de Propiedad Intelectual de EE.UU. puede regular la IA sin enmiendas

Klosek, Katherine. «US Copyright Act Can Address AI without Amendment». Association of Research Libraries (blog), 7 de julio de 2023. https://www.arl.org/blog/us-copyright-act-can-address-ai-without-amendment/.

La inteligencia artificial generativa (IA) es una tecnología que puede ayudar a los autores y otros creadores a generar ideas, editar obras originales y realizar investigaciones. Pero en lugar de depender de la legislación existente para abordar preguntas como si el uso de obras para entrenar modelos de IA es uso legítimo, o si las obras que incluyen contenido generado por IA son elegibles para la protección de derechos de autor, algunos legisladores en Estados Unidos parecen estar decididos a desarrollar nuevos marcos legales o regímenes de licencias. Este mes, Library Copyright Alliance (LCA) emitió unos principios para guiar a los legisladores en sus conversaciones sobre la ley de derechos de autor y la IA. La LCA es la voz de la comunidad bibliotecaria en política de derechos de autor; sus miembros, la Asociación de Bibliotecas de Estados Unidos (ALA) y la Asociación de Bibliotecas de Investigación (ARL), representan a más de 300,000 profesionales de la información y miles de bibliotecas.

Los principios de la LCA sostienen que la legislación de derechos de autor de Estados Unidos es totalmente capaz de abordar preguntas sobre los resultados generados por la IA. Por ejemplo, en marzo de este año, US Copyright Office emitió orientación de registro reiterando el requisito de larga data de que una obra sea creada por un ser humano para recibir protección de derechos de autor. En un seminario web reciente, la Oficina de Derechos de Autor aclaró que los solicitantes deben revelar los elementos generados por IA de una obra utilizando el mismo proceso que otros elementos no reclamables (como obras en dominio público o obras registradas previamente). Sin embargo, no se requiere que los solicitantes revelen cuando las obras contienen una cantidad mínima de autoría aportada por IA, por ejemplo, cuando se utiliza la IA para editar o difuminar una obra original. Para determinar si la contribución de la IA a una obra es mínima, la oficina alentó a los posibles solicitantes a considerar si ese elemento de la obra sería elegible para registro si fuera producido por un autor humano.

Las preocupaciones sobre la ingesta de una obra con derechos de autor original por parte de la IA y la producción de un resultado sustancialmente similar a la obra original también pueden abordarse mediante la legislación existente; el titular de los derechos de autor de una obra original puede demandar tanto al proveedor de la IA como al usuario que instigó a la IA a producir una obra sustancialmente similar.

En cuanto al aspecto de entrada, la ingesta de obras con derechos de autor para crear modelos de lenguaje extensos u otras bases de datos de entrenamiento de IA es un uso legítimo establecido, en línea con el precedente establecido en el caso Authors Guild v. HathiTrust y respaldado en el caso Authors Guild v. Google. En esos casos, el Tribunal de Apelaciones de Estados Unidos para el Segundo Circuito determinó que la ingesta de grandes cantidades de obras con el propósito de realizar usos no expresivos de esas obras, como la extracción de texto y datos, era un uso legítimo. Por supuesto, la copia y visualización de elementos no protegidos de las obras, como hechos, no constituye una infracción, según el caso Feist Publications v. Rural Telephone Service Company.

Los principios de la LCA se derivaron de los puntos que la LCA presentó durante la participación en la sesión de escucha de la Oficina de Derechos de Autor sobre la IA generativa y los derechos de autor en relación con las obras literarias. El 5 de julio, la LCA presentó los principios a la Oficina de Política Científica y Tecnológica de Estados Unidos (OSTP, por sus siglas en inglés) en respuesta a su solicitud de información para actualizar las prioridades nacionales de Estados Unidos y las acciones futuras sobre la IA. La LCA continuará participando en la iniciativa de la Oficina de Derechos de Autor sobre derechos de autor y IA, con la administración de Biden-Harris en el desarrollo de una Estrategia Nacional de Inteligencia Artificial (IA), y con otros legisladores federales para garantizar que la legislación y la regulación no obstaculicen el poder de la IA para expresar la creatividad y que los creadores puedan utilizar la IA para lograr los objetivos del sistema de derechos de autor. Estos principios también pueden guiar nuestra participación en la coordinación internacional y el establecimiento de políticas relacionadas con la IA y los derechos de autor.

Aplicación con éxito de estrategias de acceso abierto en universidades de ciencia y tecnología

de Castro, Pablo, et al.  Successful implementation of Open Access strategies at Universities of Science & Technology. CESAER, 2022

Texto completo

El documento identifica los factores clave que contribuyen al éxito de la implementación del Acceso Abierto (AA) en las instituciones y, por tanto, a lograr una buena posición en el ranking de AA del CWTS de Leiden, como las políticas de AA, las estrategias de promoción, las configuraciones del sistema institucional y el personal de apoyo.

Aunque el ranking CWTS Leiden ha estado disponible desde 2011/2012, no ha sido hasta 2019 cuando se ha hecho un primer intento de clasificar las instituciones por indicadores relacionados con el Acceso Abierto. Esto se debió a la llegada de Unpaywallas, una herramienta para medir los resultados de la investigación institucional abiertamente disponibles, ya sea a través de las rutas de acceso abierto verde o dorado, para una institución específica.

El ranking CWTS Leiden por porcentaje de la producción de investigación institucional publicada en Acceso Abierto significó efectivamente la primera oportunidad para que las instituciones de todo el mundo fueran clasificadas por la profundidad de sus estrategias de implementación de Acceso Abierto dejando de lado aspectos como su tamaño. Esto supuso una forma interesante de trazar el progreso de las instituciones miembros de CESAER que formaban parte del Grupo de Trabajo de Acceso Abierto (OAWG) del Grupo de Trabajo de Ciencia Abierta 2020-2021 hacia el objetivo establecido por el Plan Sof de alcanzar el 100% de acceso abierto a los resultados de la investigación.

El OAWG se propuso entonces trazar un mapa de la situación de las instituciones miembro representadas en él en esta clasificación de acceso abierto y seguir su evolución en ediciones posteriores de la misma. La idea detrás de este análisis no era tanto introducir un elemento de competencia entre instituciones como explorar si se estaba produciendo un progreso en el porcentaje de productos de investigación institucional disponibles en abierto año tras año.

Los resultados de este análisis -que se muestran en cifras en este documento para las ediciones de 2019, 2020 y 2021- muestran fuertes diferencias entre las instituciones miembros que forman parte del OAWG. A partir de las discusiones internas del grupo, se hizo evidente que estas diferencias podrían explicarse a través de una serie de factores que contribuyen a una implementación exitosa del Acceso Abierto a nivel institucional. Esto proporcionó la base para este trabajo

La bibliotecología y los estudios de la información ante los procesos resilientes : debates emergentes en nuevos contextos.

Sánchez Vanderkast, Egbert John, y Hector Alejandro Ramos Chavez. La bibliotecología y los estudios de la información ante los procesos resilientes : debates emergentes en nuevos contextos. Universidad Nacional Autónoma de México. Instituto de Investigaciones Bibliotecológicas y de la Información, 2023.

Texto completo

Los nuevos esquemas de comportamientos sociales, económicos, políticos y laborales demandan generar resiliencia para adaptarse a estos escenarios y avanzar en la cotidianidad. La investigación bibliotecológica y de los estudios de la información no es ajena a estos cambios. Problematizar sobre los fenómenos emergentes y latentes siguiendo los procesos resilientes desde nuestro campo ofrece nuevas dimensiones a nivel individual y colectivo en aspectos como el análisis y la consulta de la información; los retos que enfrenta la docencia de la bibliotecología; los desarrollos tecnológicos; la importancia de los datos en general, y el impacto de la información en la sociedad con un enfoque en la inclusión o la exclusión. Este libro brinda nuevas formas de asociar a la información y al sector de la información con el comportamiento social de los individuos y la colectividad en su día a día ya sea de manera presencial o virtual.

Desafíos en el entorno de la información y la documentación ante las problemáticas sociales actuales

Torres Vargas, Georgina Araceli. Desafíos en el entorno de la información y la documentación ante las problemáticas sociales actuales : volumen 2. Universidad Nacional Autónoma de México. Instituto de Investigaciones Bibliotecológicas y de la Información, 2022.

Texto completo

Vol. 1

Vol. 2

Vol. 3

Las contribuciones plasmadas aquí presentan la necesidad de discutir sobre los aportes que pueden dar las investigaciones en información y documentación para la solución y el análisis de los problemas sociales que se viven en la actualidad. Si bien desde el campo de la información y la documentación siempre se ha estado en estrecha relación con la sociedad, es necesario replantear constantemente nuestro actuar y compromiso frente a los desafíos de un mundo cambiante que nos presenta nuevos retos, en ocasiones coyunturales, como a los que nos enfrentamos hoy en día. Resulta necesario discutir las implicaciones y el papel de la información para favorecer a las comunidades y a todos los sectores sociales. La presente obra pretende invitar a los profesionales en el campo de la información y la documentación a sumarse al diálogo abierto y continuo sobre nuestro actuar y compromiso en beneficio de la sociedad.

Factores económicos de la preservación documental digital : actualización 2021

Voutssas Marquez, Juan. Factores económicos de la preservación documental digital : actualización 2021. Universidad Nacional Autónoma de México. Instituto de Investigaciones Bibliotecológicas y de la Información, 2022

Texto completo

El enorme incremento de información digital a nivel mundial implica que gran parte de ella debe ser preservada adecuadamente por parte de bibliotecas, archivos, repositorios y otras organizaciones al efecto. La adecuada preservación documental digital –entre otros factores– conlleva costos que no siempre son percibidos integralmente por los directivos de las organizaciones y los responsables de la preservación. A pesar de que a lo largo del tiempo se han elaborado múltiples estudios al respecto, el cambiante entorno tecnológico, el advenimiento de servicios especializados al efecto en la nube, etcétera, han modificado los parámetros para presupuestarla, y por lo mismo requieren que el cálculo de los costos de esta tarea deba ser analizado a la luz de nuevos elementos y contextos emergentes con el fin de revisar el conocimiento al respecto y con ello poder actualizar las técnicas para costeo de la preservación documental digital.

Registro descriptivo de los espacios culturales de la UNAM : perfil de aplicación

Rodríguez García, Ariel Alejandro, y Hugo Alberto Guadarrama Sánchez. Registro descriptivo de los espacios culturales de la UNAM : perfil de aplicación. Universidad Nacional Autónoma de México. Instituto de Investigaciones Bibliotecológicas y de la Información, 2022.

Texto completo

PDF

ePub

Existe un modelo básico a seguir para que los metadatos funcionen. Lo que permite definir los elementos de los datos y entender cómo éstos serán empleados con ayuda del control del vocabulario, que facilitará la compatibilidad entre los formatos y elementos (datos) que son posibles de encontrar en la web. La finalidad de este libro es presentar una propuesta de las bases teórico-prácticas de lo que en el escenario de los metadatos se conoce como perfil de aplicación descriptivo, el cual desarrolla especificaciones que se limitan a esclarecer el uso de un esquema de metadatos en una comunidad en particular. De modo que esta publicación sea una guía que oriente, desde la visión bibliotecológica, a quienes desean normar apropiadamente los datos de los espacios culturales y con ello llevar a la práctica el registro de la información sobre la gestión cultural.