Archivo de la etiqueta: Hiperenlaces

Cuando el contenido en línea desaparece: el 38% de las páginas web que existían en 2013 no están disponibles hoy

Rivero, Athena Chapekis, Samuel Bestvater, Emma Remy and Gonzalo. «When Online Content Disappears». Pew Research Center (blog), 17 de mayo de 2024. https://www.pewresearch.org/data-labs/2024/05/17/when-online-content-disappears/.

Un nuevo análisis del Pew Research Center muestra lo efímeros que son los contenidos en línea. Una cuarta parte de todas las páginas web que existieron en algún momento entre 2013 y 2023 ya no son accesibles, a partir de octubre de 2023. En la mayoría de los casos, esto se debe a que una página individual fue eliminada o suprimida de un sitio web que, por lo demás, funcionaba.

En el caso de los contenidos más antiguos, la tendencia es aún más marcada. Alrededor del 38% de las páginas web que existían en 2013 no están disponibles hoy en día, en comparación con el 8% de las páginas que existían en 2023. Un gráfico de líneas que muestra que el 38% de las páginas web de 2013 ya no están accesibles

Esta «decadencia digital» se produce en muchos espacios en línea diferentes. Hemos examinado los enlaces que aparecen en sitios web gubernamentales y de noticias, así como en la sección «Referencias» de las páginas de Wikipedia en la primavera de 2023. Este análisis reveló que:

El 23% de las páginas web de noticias contienen al menos un enlace roto, al igual que el 21% de las páginas web de sitios gubernamentales. Los sitios web de noticias con un alto nivel de tráfico y los que tienen menos tráfico tienen casi las mismas probabilidades de contener enlaces rotos. Las páginas de las administraciones locales (ayuntamientos) son especialmente propensas a tener enlaces rotos.
El 54% de las páginas de Wikipedia contienen al menos un enlace en su sección «Referencias» que apunta a una página que ya no existe.

Para ver cómo se desarrolla la decadencia digital en las redes sociales, también se recogió una muestra en tiempo real de tuits durante la primavera de 2023 en la plataforma de redes sociales X (entonces conocida como Twitter) y los seguimos durante tres meses. Descubrimos que

Casi uno de cada cinco tuits ya no son visibles públicamente en el sitio apenas unos meses después de haber sido publicados.
En el 60% de los casos, la cuenta que publicó originalmente el tuit se hizo privada, se suspendió o se eliminó por completo. En el 40% restante, el titular de la cuenta eliminó el tuit, pero la cuenta seguía existiendo.
Ciertos tipos de tuits tienden a desaparecer con más frecuencia que otros. Más del 40% de los tuits escritos en turco o árabe dejan de ser visibles en el sitio a los tres meses de su publicación.
Y los tuits de cuentas con la configuración de perfil por defecto son especialmente propensos a desaparecer de la vista del público.

Enlaces rotos: cómo las páginas web se pierden en el tiempo

Hirsch, Matt. «Link Rot: How Web Pages Are Lost to Time». Bold TV (blog), 15 de junio de 2023. https://boldtv.com/matthew-hirsch/2023/06/15/link-rot-how-web-pages-are-lost-to-time/.

Pérdida de enlaces: Cómo las páginas web se pierden en el tiempo

El 1 de enero de 2023, Internet cumplió 40 años. En los cuarenta años transcurridos desde su creación, los usuarios han subido una cantidad insondable de datos a la red mundial. Sólo en 2022, se subieron a la red 97 zettabytes (97 billones de gigabytes) de datos nuevos. Y esa cifra aumenta cada año. La mayoría considera Internet una especie de Biblioteca de Alejandría moderna. Se pueden encontrar respuestas a (casi) cualquier pregunta. Sin embargo, los enlaces a muchas páginas antiguas ya no funcionan. Estas páginas muertas han sucumbido a un fenómeno conocido como «link rot».

¿Qué causa la pérdida de enlaces y por qué es un problema importante?

Según The Verge, alrededor del 72% de los enlaces generados en 1998 han sucumbido por la rotura de enlaces. Varias razones pueden hacer que una URL (localizador uniforme de recursos) deje de funcionar y muestre el temido mensaje de «error 404». Por ejemplo, el propietario de una página web puede cambiar de host, el nombre del dominio ha caducado o el sitio se ha caído por completo.

Entonces, ¿por qué es un problema la rotura de enlaces? En 2023, nuestras vidas giran en torno a Internet. Según el Pew Research Center, el 85% de los estadounidenses afirma conectarse a Internet a diario. Y casi un tercio afirma utilizar la red constantemente. Y, sobre todo desde los albores de la era de las redes sociales, utilizamos Internet para conectar con amigos y familiares.

En la última década, hemos guardado muchos de nuestros mejores recuerdos en los servidores de Facebook (o de cualquier otra red social). Es probable que pase algún tiempo antes de que nuestros viejos perfiles sigan el camino de los dinosaurios. Sin embargo, es casi inevitable que ocurra (sobre todo si ya no utilizas la plataforma).

La pérdida de enlaces también causa estragos en periodistas, investigadores y académicos que intentan citar material antiguo. Por ejemplo, según Harvard, más del 70% de las páginas web estudiadas en una revista jurídica no enlazan con las fuentes originales. Cerca de la mitad de los enlaces de las opiniones del Tribunal Supremo de Estados Unidos estudiadas estaban rotos. Y cerca de tres cuartas partes de los enlaces examinados por los investigadores conducían a contenidos distintos de los que citaban. Además, un estudio de la Universidad Tecnológica de Nanyang, en Singapur, demostró que el problema afecta sobre todo a los enlaces «.edu», con un 36%.

¿Cómo podemos salvar nuestros datos?

Varias organizaciones y entidades sin ánimo de lucro se dedican a archivar datos antiguos en la Red. Internet Archive es una biblioteca digital fundada por el ingeniero informático Brewster Kahle en 1996. El público puede cargar y descargar libremente datos de su colección. También guarda páginas web antiguas ya desaparecidas y permite a cualquiera acceder a ellas a través de su navegador, Wayback Machine. En 2023, habrá 811 millones de páginas web antiguas archivadas en Wayback Machine.

Y en el ámbito académico, donde la perdidade enlaces es un problema más acuciante, Perma.cc es el servicio de archivo de referencia. Harvard Law School Library Innovation Lab fundó este archivo académico en 2013 como respuesta directa a este problema. Y en 2016, el Instituto de Servicios de Museos y Bibliotecas les concedió una subvención de 700.000 dólares para ampliar Perma.cc. Se diferencia de Wayback Machine en que no utiliza rastreadores web para recorrer Internet.

A nivel individual, lo mejor que puedes hacer para conservar tus recuerdos digitales es almacenarlos fuera de Internet. Las plataformas de redes sociales adoptan cada vez más políticas de eliminación de perfiles inactivos.

El impacto de los hipervínculos, la lectura por encima y la importancia percibida al leer en la web

Jayes LT, Fitzsimmons G, Weal MJ, Kaakinen JK, Drieghe D (2022) The impact of hyperlinks, skim reading and perceived importance when reading on the Web. PLoS ONE 17(2): e0263669. https://doi.org/10.1371/journal.pone.0263669

Las investigaciones actuales han demostrado sistemáticamente que la lectura en la web difiere de la lectura en otros contextos. Una diferencia específica es la presencia de hipervínculos, palabras que permiten a los usuarios navegar a una página web diferente al hacer clic. Los hipervínculos son visualmente destacados y se ha demostrado que fijan la atención durante la lectura en la web.

Otra diferencia es el hecho de que hay tanta información en la web que a menudo no se considera viable leer toda la información disponible para su comprensión. Por ello, los lectores a menudo no consideran que todo el texto tenga la misma importancia, dependiendo de su tarea. La lectura por encima del texto es un comportamiento de lectura adaptativo habitual que se adopta para que la lectura en la Web sea más manejable para el lector. De hecho, ya se ha observado que el comportamiento de lectura en pantalla se caracteriza por «pasar más tiempo hojeando y escaneando, localizar palabras clave… leer de forma no lineal y leer de forma más selectiva».

Otros estudios han revelado que la lectura en línea se lleva a cabo con mayor rapidez, lo que repercute en la comprensión. Además, la investigación educativa sugiere que hay que enseñar a los estudiantes a no depender en exceso del comportamiento de escaneo, debido al coste de procesamiento en el que se incurre. El aumento de la lectura por encima en el comportamiento de la lectura en línea invita a preguntarse cómo los lectores evalúan la importancia del texto, cuando participan en una estrategia de lectura que es tan rápida y selectiva. Por ello, esta investigación pretende explorar cómo los aspectos de la lectura en la web, concretamente la lectura por encima, la presencia de hipervínculos y la composición de una página web, afectan a la importancia percibida por los lectores del texto y, a su vez, a su comportamiento de lectura.

Qué implica la ruptura de hiprenlaces en la web: estudio de la deriva de enlaces y contenidos en The New York Times.

Zittrain, Jonathan, John Bowers, and Clare Stanton. «The Paper of Record Meets an Ephemeral Web: An Examination of Linkrot and Content Drift within The New York Times.» Library Innovation Lab, Harvard Law School, 2021

Ver completo

Los hipervínculos son una herramienta poderosa para los periodistas y sus lectores. Para profundizar en el contexto de un artículo, basta con un clic. Pero los hipervínculos son un arma de doble filo: a pesar de lo ilimitado de Internet, lo que se encuentra en la Red también puede modificarse, desplazarse o desaparecer por completo.

La fragilidad de la Red supone un problema para cualquier área de trabajo o interés que dependa de los registros escritos. La pérdida de material de referencia, los impactos negativos en el SEO y el secuestro malicioso de valiosos outlinks son algunos de los efectos adversos de una URL rota. Y lo que es más importante, deja los artículos de décadas pasadas como cáscaras vacías de lo que fueron, desvinculados de su fuente y contexto originales. En un estudio de 2014, por ejemplo, unos investigadores descubrieron que casi la mitad de los hipervínculos de las opiniones del Tribunal Supremo conducían a contenidos que habían cambiado desde su publicación original o habían desaparecido de Internet.

Esta decadencia, a menudo irreversible, de los contenidos web se conoce comúnmente como linkrot. Es similar al problema relacionado con la deriva del contenido, o los cambios típicamente no anunciados -retiros, adiciones, sustituciones- en el contenido de una determinada URL.

Este estudio examinó los hipervínculos en los artículos del New York Times, desde el lanzamiento del sitio web del Times en 1996 hasta mediados de 2019, desarrollados sobre la base de un conjunto de datos que nos proporcionó el Times. La sustancial deriva de enlaces y contenidos que se econtró refleja las dificultades inherentes a la vinculación a largo plazo de enlaces de una web volátil. The Times, en particular, es un abanderado del periodismo digital con buenos recursos y una sólida estructura de archivo institucional. Su interés por afrontar el reto del linkrot indica que aún no se ha entendido ni abordado de forma exhaustiva en todo el ámbito.

Se descubrió que de los 553.693 artículos incluidos en el estudio -es decir, que incluían URLs en nytimes.com- había un total de 2.283.445 hipervínculos que apuntaban a contenidos fuera de nytimes.com. El 72% de ellos eran «enlaces profundos» con una ruta a una página específica, como example.com/article, que es donde se centró el análisis (en lugar de simplemente example.com, que componía el resto del conjunto de datos). De estos enlaces profundos, el 25% de los enlaces eran completamente inaccesibles. La putrefacción de los enlaces se hizo más común con el tiempo: el 6 por ciento de los enlaces de 2018 se habían corrompido, en comparación con el 43 por ciento de los enlaces de 2008 y el 72 por ciento de los enlaces de 1998. El 53% de todos los artículos que contenían enlaces profundos tenían al menos un enlace fallido.

Ciertas secciones del Times mostraron tasas mucho más altas de URLs podridas. Los enlaces de la sección de deportes, por ejemplo, muestran una tasa de putrefacción relativa de alrededor del 36%, frente al 13% de The Upshot. Esta diferencia tiene que ver, en gran parte, con el tiempo. La edad media de un enlace en The Upshot es de 1.450 días, frente a los 3.196 días de la sección de deportes.

	Noticias IA y Educac… en Aprender para el futuro: educa…
	IA en bibliotecas: d… en Implementación de un chatbot d…
	IA en bibliotecas: d… en Declaración de la IFLA sobre d…
	IA en bibliotecas: d… en Principios Rectores de las Bib…
	IA en bibliotecas: d… en Competencias en IA para trabaj…

Universo Abierto

Blog de la biblioteca de Traducción y Documentación de la Universidad de Salamanca