Archivo de la etiqueta: Hiperenlaces

Enlaces rotos: cómo las páginas web se pierden en el tiempo

Hirsch, Matt. «Link Rot: How Web Pages Are Lost to Time». Bold TV (blog), 15 de junio de 2023. https://boldtv.com/matthew-hirsch/2023/06/15/link-rot-how-web-pages-are-lost-to-time/.

Pérdida de enlaces: Cómo las páginas web se pierden en el tiempo

El 1 de enero de 2023, Internet cumplió 40 años. En los cuarenta años transcurridos desde su creación, los usuarios han subido una cantidad insondable de datos a la red mundial. Sólo en 2022, se subieron a la red 97 zettabytes (97 billones de gigabytes) de datos nuevos. Y esa cifra aumenta cada año. La mayoría considera Internet una especie de Biblioteca de Alejandría moderna. Se pueden encontrar respuestas a (casi) cualquier pregunta. Sin embargo, los enlaces a muchas páginas antiguas ya no funcionan. Estas páginas muertas han sucumbido a un fenómeno conocido como «link rot».

¿Qué causa la pérdida de enlaces y por qué es un problema importante?

Según The Verge, alrededor del 72% de los enlaces generados en 1998 han sucumbido por la rotura de enlaces. Varias razones pueden hacer que una URL (localizador uniforme de recursos) deje de funcionar y muestre el temido mensaje de «error 404». Por ejemplo, el propietario de una página web puede cambiar de host, el nombre del dominio ha caducado o el sitio se ha caído por completo.

Entonces, ¿por qué es un problema la rotura de enlaces? En 2023, nuestras vidas giran en torno a Internet. Según el Pew Research Center, el 85% de los estadounidenses afirma conectarse a Internet a diario. Y casi un tercio afirma utilizar la red constantemente. Y, sobre todo desde los albores de la era de las redes sociales, utilizamos Internet para conectar con amigos y familiares.

En la última década, hemos guardado muchos de nuestros mejores recuerdos en los servidores de Facebook (o de cualquier otra red social). Es probable que pase algún tiempo antes de que nuestros viejos perfiles sigan el camino de los dinosaurios. Sin embargo, es casi inevitable que ocurra (sobre todo si ya no utilizas la plataforma).

La pérdida de enlaces también causa estragos en periodistas, investigadores y académicos que intentan citar material antiguo. Por ejemplo, según Harvard, más del 70% de las páginas web estudiadas en una revista jurídica no enlazan con las fuentes originales. Cerca de la mitad de los enlaces de las opiniones del Tribunal Supremo de Estados Unidos estudiadas estaban rotos. Y cerca de tres cuartas partes de los enlaces examinados por los investigadores conducían a contenidos distintos de los que citaban. Además, un estudio de la Universidad Tecnológica de Nanyang, en Singapur, demostró que el problema afecta sobre todo a los enlaces «.edu», con un 36%.

¿Cómo podemos salvar nuestros datos?


Varias organizaciones y entidades sin ánimo de lucro se dedican a archivar datos antiguos en la Red. Internet Archive es una biblioteca digital fundada por el ingeniero informático Brewster Kahle en 1996. El público puede cargar y descargar libremente datos de su colección. También guarda páginas web antiguas ya desaparecidas y permite a cualquiera acceder a ellas a través de su navegador, Wayback Machine. En 2023, habrá 811 millones de páginas web antiguas archivadas en Wayback Machine.

Y en el ámbito académico, donde la perdidade enlaces es un problema más acuciante, Perma.cc es el servicio de archivo de referencia. Harvard Law School Library Innovation Lab fundó este archivo académico en 2013 como respuesta directa a este problema. Y en 2016, el Instituto de Servicios de Museos y Bibliotecas les concedió una subvención de 700.000 dólares para ampliar Perma.cc. Se diferencia de Wayback Machine en que no utiliza rastreadores web para recorrer Internet.

A nivel individual, lo mejor que puedes hacer para conservar tus recuerdos digitales es almacenarlos fuera de Internet. Las plataformas de redes sociales adoptan cada vez más políticas de eliminación de perfiles inactivos.

El impacto de los hipervínculos, la lectura por encima y la importancia percibida al leer en la web

Jayes LT, Fitzsimmons G, Weal MJ, Kaakinen JK, Drieghe D (2022) The impact of hyperlinks, skim reading and perceived importance when reading on the Web. PLoS ONE 17(2): e0263669. https://doi.org/10.1371/journal.pone.0263669

Las investigaciones actuales han demostrado sistemáticamente que la lectura en la web difiere de la lectura en otros contextos. Una diferencia específica es la presencia de hipervínculos, palabras que permiten a los usuarios navegar a una página web diferente al hacer clic. Los hipervínculos son visualmente destacados y se ha demostrado que fijan la atención durante la lectura en la web.

Otra diferencia es el hecho de que hay tanta información en la web que a menudo no se considera viable leer toda la información disponible para su comprensión. Por ello, los lectores a menudo no consideran que todo el texto tenga la misma importancia, dependiendo de su tarea. La lectura por encima del texto es un comportamiento de lectura adaptativo habitual que se adopta para que la lectura en la Web sea más manejable para el lector. De hecho, ya se ha observado que el comportamiento de lectura en pantalla se caracteriza por «pasar más tiempo hojeando y escaneando, localizar palabras clave… leer de forma no lineal y leer de forma más selectiva».

Otros estudios han revelado que la lectura en línea se lleva a cabo con mayor rapidez, lo que repercute en la comprensión. Además, la investigación educativa sugiere que hay que enseñar a los estudiantes a no depender en exceso del comportamiento de escaneo, debido al coste de procesamiento en el que se incurre. El aumento de la lectura por encima en el comportamiento de la lectura en línea invita a preguntarse cómo los lectores evalúan la importancia del texto, cuando participan en una estrategia de lectura que es tan rápida y selectiva. Por ello, esta investigación pretende explorar cómo los aspectos de la lectura en la web, concretamente la lectura por encima, la presencia de hipervínculos y la composición de una página web, afectan a la importancia percibida por los lectores del texto y, a su vez, a su comportamiento de lectura.

Qué implica la ruptura de hiprenlaces en la web: estudio de la deriva de enlaces y contenidos en The New York Times.

Zittrain, Jonathan, John Bowers, and Clare Stanton. «The Paper of Record Meets an Ephemeral Web: An Examination of Linkrot and Content Drift within The New York Times.» Library Innovation Lab, Harvard Law School, 2021

Ver completo

Los hipervínculos son una herramienta poderosa para los periodistas y sus lectores. Para profundizar en el contexto de un artículo, basta con un clic. Pero los hipervínculos son un arma de doble filo: a pesar de lo ilimitado de Internet, lo que se encuentra en la Red también puede modificarse, desplazarse o desaparecer por completo.

La fragilidad de la Red supone un problema para cualquier área de trabajo o interés que dependa de los registros escritos. La pérdida de material de referencia, los impactos negativos en el SEO y el secuestro malicioso de valiosos outlinks son algunos de los efectos adversos de una URL rota. Y lo que es más importante, deja los artículos de décadas pasadas como cáscaras vacías de lo que fueron, desvinculados de su fuente y contexto originales. En un estudio de 2014, por ejemplo, unos investigadores descubrieron que casi la mitad de los hipervínculos de las opiniones del Tribunal Supremo conducían a contenidos que habían cambiado desde su publicación original o habían desaparecido de Internet.

Esta decadencia, a menudo irreversible, de los contenidos web se conoce comúnmente como linkrot. Es similar al problema relacionado con la deriva del contenido, o los cambios típicamente no anunciados -retiros, adiciones, sustituciones- en el contenido de una determinada URL.

Este estudio examinó los hipervínculos en los artículos del New York Times, desde el lanzamiento del sitio web del Times en 1996 hasta mediados de 2019, desarrollados sobre la base de un conjunto de datos que nos proporcionó el Times. La sustancial deriva de enlaces y contenidos que se econtró refleja las dificultades inherentes a la vinculación a largo plazo de enlaces de una web volátil. The Times, en particular, es un abanderado del periodismo digital con buenos recursos y una sólida estructura de archivo institucional. Su interés por afrontar el reto del linkrot indica que aún no se ha entendido ni abordado de forma exhaustiva en todo el ámbito.

Se descubrió que de los 553.693 artículos incluidos en el estudio -es decir, que incluían URLs en nytimes.com- había un total de 2.283.445 hipervínculos que apuntaban a contenidos fuera de nytimes.com. El 72% de ellos eran «enlaces profundos» con una ruta a una página específica, como example.com/article, que es donde se centró el análisis (en lugar de simplemente example.com, que componía el resto del conjunto de datos). De estos enlaces profundos, el 25% de los enlaces eran completamente inaccesibles. La putrefacción de los enlaces se hizo más común con el tiempo: el 6 por ciento de los enlaces de 2018 se habían corrompido, en comparación con el 43 por ciento de los enlaces de 2008 y el 72 por ciento de los enlaces de 1998. El 53% de todos los artículos que contenían enlaces profundos tenían al menos un enlace fallido.

Ciertas secciones del Times mostraron tasas mucho más altas de URLs podridas. Los enlaces de la sección de deportes, por ejemplo, muestran una tasa de putrefacción relativa de alrededor del 36%, frente al 13% de The Upshot. Esta diferencia tiene que ver, en gran parte, con el tiempo. La edad media de un enlace en The Upshot es de 1.450 días, frente a los 3.196 días de la sección de deportes.

Enlaces rotos por secciones