Archivo de la etiqueta: Páginas web

Cada día desaparecen partes de la web. Cómo salvar la historia de Internet

Parts of the web are disappearing every day. Here’s how to save Internet history. By Kayla Harris and Christina Beis and Stephanie Shreffler. Fast Company, August 2021

Ver noticia completa

Este año Internet Archive cumple 25 años. Es más conocido por su papel pionero en el archivo de Internet a través de la Wayback Machine, que permite a los usuarios ver cómo eran los sitios web en el pasado.

Cada vez más, gran parte de la vida cotidiana se desarrolla en línea. La escuela, el trabajo, la comunicación con los amigos y la familia, así como las noticias y las imágenes, son accesibles a través de una variedad de sitios web. La información que antes se imprimía, se enviaba físicamente por correo o se guardaba en álbumes de fotos y cuadernos puede estar ahora disponible sólo en línea. La pandemia de COVID-19 ha empujado aún más interacciones a la web.

Es posible que aunque no nos demos hay partes de Internet que desaparecen constantemente. Como bibliotecarios y archiveros, reforzamos la memoria colectiva preservando los materiales que documentan el patrimonio cultural de la sociedad, incluso en la web. Tú también puedes ayudarnos a salvar Internet como ciudadano archivero.

La gente y las organizaciones eliminan contenidos de la web por diversas razones. A veces es el resultado de los cambios en la cultura de Internet, como el reciente cierre de Yahoo Respuestas. Cuando se actualiza un sitio web, por ejemplo, se sobrescribe la versión anterior, a menos que se haya archivado.

El archivo web es el proceso de recopilación, conservación y acceso continuo a la información en Internet. A menudo, este trabajo lo realizan bibliotecarios y archiveros, con la ayuda de tecnología automatizada como los rastreadores web. Los rastreadores web son programas que indexan las páginas web para ponerlas a disposición de los motores de búsqueda o para su conservación a largo plazo. Internet Archive, una organización sin ánimo de lucro, utiliza miles de servidores informáticos para guardar múltiples copias digitales de estas páginas, lo que requiere más de 70 petabytes de datos.

Archivar los sitios web del gobierno promueve la transparencia y la responsabilidad. Especialmente en tiempos de transición, los sitios web del gobierno son vulnerables a la eliminación con los cambios de los partidos políticos. Además, los sitios web archivados documentan la cultura y la historia de Internet, como la Galería Geocities, no sólo son divertidos de ver, sino que también ilustran las formas en que los primeros sitios web fueron creados y utilizados por los individuos.

Archivar Internet es una tarea monumental, que los bibliotecarios y archiveros no pueden hacer solos. Cualquiera puede ser un archivero ciudadano y preservar la historia a través de la Wayback Machine de Internet Archive. La función “Guardar página ahora” permite a cualquiera archivar libremente una sola página de un sitio web público. Hay que tener en cuenta que algunos sitios web impiden el rastreo y el archivado mediante una codificación especial o exigiendo un inicio de sesión en el sitio. Esto puede deberse a un contenido sensible o a la preferencia personal del desarrollador de la web.

Las instituciones del patrimonio cultural local, como bibliotecas, archivos y museos, también archivan activamente en Internet. Más de 800 instituciones utilizan Archive-It, una herramienta del Archivo de Internet, para crear colecciones web archivada. También el programa  Community Webs, en colaboración con Institute of Museum and Library Services, ayuda a las bibliotecas públicas a crear colecciones de contenidos web archivados relevantes para las comunidades locales.

Los sitios web de hoy son la prueba histórica de mañana, pero sólo si se archivan. Si se pierden, perderemos información crucial sobre las decisiones de las empresas y los gobiernos, los métodos de comunicación modernos, como las redes sociales, y los movimientos sociales con una importante presencia en línea, como Black Lives Matter y #MeToo.

Qué implica la ruptura de hiprenlaces en la web: estudio de la deriva de enlaces y contenidos en The New York Times.

Zittrain, Jonathan, John Bowers, and Clare Stanton. “The Paper of Record Meets an Ephemeral Web: An Examination of Linkrot and Content Drift within The New York Times.” Library Innovation Lab, Harvard Law School, 2021

Ver completo

Los hipervínculos son una herramienta poderosa para los periodistas y sus lectores. Para profundizar en el contexto de un artículo, basta con un clic. Pero los hipervínculos son un arma de doble filo: a pesar de lo ilimitado de Internet, lo que se encuentra en la Red también puede modificarse, desplazarse o desaparecer por completo.

La fragilidad de la Red supone un problema para cualquier área de trabajo o interés que dependa de los registros escritos. La pérdida de material de referencia, los impactos negativos en el SEO y el secuestro malicioso de valiosos outlinks son algunos de los efectos adversos de una URL rota. Y lo que es más importante, deja los artículos de décadas pasadas como cáscaras vacías de lo que fueron, desvinculados de su fuente y contexto originales. En un estudio de 2014, por ejemplo, unos investigadores descubrieron que casi la mitad de los hipervínculos de las opiniones del Tribunal Supremo conducían a contenidos que habían cambiado desde su publicación original o habían desaparecido de Internet.

Esta decadencia, a menudo irreversible, de los contenidos web se conoce comúnmente como linkrot. Es similar al problema relacionado con la deriva del contenido, o los cambios típicamente no anunciados -retiros, adiciones, sustituciones- en el contenido de una determinada URL.

Este estudio examinó los hipervínculos en los artículos del New York Times, desde el lanzamiento del sitio web del Times en 1996 hasta mediados de 2019, desarrollados sobre la base de un conjunto de datos que nos proporcionó el Times. La sustancial deriva de enlaces y contenidos que se econtró refleja las dificultades inherentes a la vinculación a largo plazo de enlaces de una web volátil. The Times, en particular, es un abanderado del periodismo digital con buenos recursos y una sólida estructura de archivo institucional. Su interés por afrontar el reto del linkrot indica que aún no se ha entendido ni abordado de forma exhaustiva en todo el ámbito.

Se descubrió que de los 553.693 artículos incluidos en el estudio -es decir, que incluían URLs en nytimes.com- había un total de 2.283.445 hipervínculos que apuntaban a contenidos fuera de nytimes.com. El 72% de ellos eran “enlaces profundos” con una ruta a una página específica, como example.com/article, que es donde se centró el análisis (en lugar de simplemente example.com, que componía el resto del conjunto de datos). De estos enlaces profundos, el 25% de los enlaces eran completamente inaccesibles. La putrefacción de los enlaces se hizo más común con el tiempo: el 6 por ciento de los enlaces de 2018 se habían corrompido, en comparación con el 43 por ciento de los enlaces de 2008 y el 72 por ciento de los enlaces de 1998. El 53% de todos los artículos que contenían enlaces profundos tenían al menos un enlace fallido.

Ciertas secciones del Times mostraron tasas mucho más altas de URLs podridas. Los enlaces de la sección de deportes, por ejemplo, muestran una tasa de putrefacción relativa de alrededor del 36%, frente al 13% de The Upshot. Esta diferencia tiene que ver, en gran parte, con el tiempo. La edad media de un enlace en The Upshot es de 1.450 días, frente a los 3.196 días de la sección de deportes.

Enlaces rotos por secciones

¿Qué aspecto tuvo el año 2020 en la cobertura informativa?

Las 100 palabras más utilizadas en las noticias de EE.UU. a partir de 2020 (muestra de 10.000 historias) Fuente: Media Cloud

Media Cloud es una herramienta de análisis de contenidos de código abierto cuyo objetivo es cartografiar la cobertura de los medios de comunicación de la actualidad. Realiza cinco funciones básicas: definición de medios, rastreo, extracción de texto, vectorización de palabras y análisis.

Como revelan las palabras más utilizadas en la cobertura, hubo tres historias principales que dominaron la cobertura de las noticias en 2020: la pandemia de coronavirus, las campañas y elecciones presidenciales de EE.UU., y el tema de la brutalidad policial contra la gente de color, como lo ejemplifican los asesinatos de George Floyd y Breonna Taylor y las protestas subsiguientes. (Ver nube de palabras de arriba)

Media Cloud es un proyecto de investigación de un consorcio de múltiples instituciones, como la Universidad de Massachusetts Amherst, la Universidad Northeastern y el Berkman Klein Center for Internet & Society de la Universidad de Harvard.

Este bibliotecario de Internet tiene la misión de archivar la web antes de que la borren

MarkMark Graham director de Wayback Machine

Mark Graham teme que partes valiosas de la historia de la humanidad estén desapareciendo ante nuestros ojos. Como director de Wayback Machine, un sitio web que registra cómo han cambiado las páginas web individuales a lo largo del tiempo, es muy consciente de lo importante que es mantener un registro de lo que se publica, y dónde.

“Si queremos que las generaciones futuras tengan la oportunidad de aprender de la historia, es imprescindible que ésta esté a su disposición”, afirma Graham. “En las últimas décadas, casi toda la comunicación del conocimiento humano ha sido digital y, aunque eso ha permitido un aumento espectacular del volumen y la frecuencia, también ha traído consigo su fragilidad”.

Mark Graham director de Wayback Machine

La Wayback Machine es un archivo digital de la World Wide Web, fundado por el Internet Archive, una biblioteca sin ánimo de lucro con sede en San Francisco. Permite al usuario “retroceder en el tiempo” y ver cómo eran los sitios web en el pasado, para ello vas:

  • Abres el sitio web de Wayback.
  • Introduces la URL del sitio o página web desaparecida que quieres abrir en la casilla de la parte superior.
  • Haz clic en Examinar el historial.
  • Verás una vista de calendario. Selecciona el año en la parte superior y luego la fecha de la lista de meses en la parte inferior.
  • Ya está.

Aunque no hay garantía de que una página perdida haya sido archivada, Internet Archive señala que Wayback Machine tiene archivadas más de 900.000 millones de URL y más de 400.000 millones de páginas web en sus 23 años de historia.

Si quieres ver un vídeo borrado de YouTube utilizando Wayback Machine, puedes encontrar el enlace al vídeo al que quieres acceder, sin la URL no podrás acceder al vídeo borrado de YouTube. … No podrás reproducir el vídeo directamente, aunque si puedes descargarlo.

Hay una serie de herramientas útiles que pueden hacer que la Wayback Machine forme parte de tu experiencia diaria en Internet. Si quieres evitar encontrarte con errores de páginas web 404 en el futuro (código html de página no encontrada), lo más fácil que puedes hacer es integrar Wayback Machine en tu navegador. Puedes instalar en tu navegador una serie de extensiones para  Safari, Chrome, y Firefox  que te permiten ver las versiones archivadas de las páginas web con sólo pulsar un botón.

Si encuentras algo que crees que debe ser preservado, puedes usar esta herramienta para asegurarte de que Wayback Machine capture una instantánea de ello. Es tan sencillo como visitar web.archive.org/save y pegar la URL deseada. Si tienes el plugin para el navegador, puedes guardar cualquier página que visites con sólo pulsar un botón.

Directrices de Accesibilidad para el Contenido Web: ¿Cumple tu sitio web con las normas WCAG?

WCAG Directrices de Accesibilidad del Contenido Web (Web Content Accessibility Guidelines)

Ver directrices

Las WCAG han sido desarrolladas por la W3C y recogen las mejores prácticas de accesibilidad digital. Además, las WCAG son un estándar aceptado mundialmente.. Utiliza el Comprobador de Accesibilidad de Siteimprove para saber si tu sitio web cumple con las directrices WCAG, con un solo clic.

El rediseño de Pubmed desata las quejas y protestas de los usuarios

 

Page not found and error in laptop. Bad or slow internet connection. Frustrated man spreading hands in home office desk. Broken computer not working. Online information problem. Alert icon.

 

They redesigned PubMed, a beloved website. It hasn’t gone over well. by Michael Price

Ver completo

 

Cada vez con más frecuencia los rediseños de algunos de los sitios web terminan complicando la usabilidad y provocando el desacuerdo de muchos de sus usuarios. El caso del nuevo rediseño de Pubmed que está provocando un aluvión de críticas por parte de sus usuarios en medios sociales.

 

 

PubMed, la base de datos masiva de literatura biomédica mantenida por el Centro Nacional de Información Biotecnológica de los Estados Unidos (NCBI), es uno de los sitios web más populares del gobierno de los Estados Unidos, con unos 2 millones de usuarios diarios. Entonces, cuando algo cambia en PubMed, no pasa desapercibido.

Desafortunadamente para los diseñadores del sitio, sin embargo, el rediseño radical revelado esta semana ha disgustado a muchos usuarios de PubMed, que han  reflejado sus quejas,  a veces cargadas de maldiciones, en las redes sociales.

Muchos de los disconformes denuncian que el nuevo estilo y diseño de PubMed, la forma en que muestra los resultados de búsqueda y sus algoritmos de búsqueda supuestamente mejorados.

El biólogo molecular Richard Ebright, por su parte, instó a los usuarios de PubMed a exigir un retorno a una versión anterior.

La directora de NLM, Patricia Brennan, escribió en Twitter para alentar a los usuarios de PubMed a que escriban sus opiniones en su formulario de comentario.

La creación de la World Wide Web fue una cuestión puramente accidental

 

15746899426772

 

Ver noticia completa

 

En marzo de 1989, Tim Berners-Lee presentó una propuesta para un sistema de gestión de la información a su jefe, Mike Sendall. “Vago, pero emocionante”, fueron las palabras que Sendall escribió en la propuesta.

En el 31 aniversario de la creación de la web, según informa el diario “El País”, Ben Segal, uno de los mentores de Tim Berners-Lee en el CERN, comenta que la creación de la web fue una cuestión puramente accidental. Lo que estaba intentando hacer Berners-Lee era vincular la información disponible en varios ordenadores. Ante la poca atención de parte de sus colegas, ya que aquello sólo funcionaba en un tipo de ordenador, un Next fabricado por Steve Jobs, decidió poner allí el listado telefónico del CERN, y esa manera nació la primera página web que cambiaría buena parte del destino del mundo. De este modo el diseño de la WWW permitía un fácil acceso a la información existente y una temprana página web vinculada a información útil para los científicos del CERN (por ejemplo, la guía telefónica del CERN y las guías para utilizar los ordenadores centrales del CERN). Aún hoy día es posible visualizar la primera página  info.cern.ch.

Tim Berners-Lee escribió la primera propuesta para la World Wide Web en marzo de 1989 y su segunda propuesta en mayo de 1990. Junto con el ingeniero de sistemas belga Robert Cailliau, esto se formalizó como una propuesta de gestión en noviembre de 1990. Desarrolló el código de su servidor web en un ordenador NeXT. Para evitar que se apagara accidentalmente, el ordenador tenía una etiqueta escrita a mano con tinta roja:  “This machine is a server. DO NOT POWER IT DOWN!!” (Esta máquina es un servidor. No apagar). Esto esbozó los principales conceptos y definió los términos importantes detrás de la web. El documento describía un “proyecto de hipertexto” llamado “WorldWideWeb” en el que una “web” de “documentos de hipertexto” podía ser vista por “navegadores”.a finales de 1990. Berners-Lee tenía el primer servidor y navegador de la web en funcionamiento en el CERN, demostrando sus ideas.

La primera dirección de la página Web fue http://info.cern.ch/hypertext/WWW/TheProject.html. La página contenía enlaces a información sobre el propio proyecto WWW, incluyendo una descripción del hipertexto, detalles técnicos para la creación de un servidor Web y enlaces a otros servidores Web a medida que estuvieran disponibles. El servicio de búsqueda se basaba en palabras clave – no había motores de búsqueda en los primeros años.

 

Ver noticia completa

 

Sir Tim Berners-Lee lanza un plan de acción global para salvar a la web de la manipulación política, noticias falsas y violaciones de la privacidad

 

5098

 

The Contract for the Web. Tim Berners-Lee, 2019

Texto completo

Sir Tim Berners-Lee ha lanzado un plan de acción global para salvar a la web de la manipulación política, noticias falsas, violaciones de la privacidad y otras cuestiones que amenazan con sumergir al mundo en una “distopía digital”.

 

La Web fue diseñada para reunir a la gente y hacer que el conocimiento esté disponible gratuitamente. Ha cambiado el mundo para bien y ha mejorado la vida de miles de millones de personas. Sin embargo, muchas personas siguen sin poder acceder a sus beneficios y, para otros, la Web conlleva demasiados costes inaceptables.

The Contract for the Web fue creado por representantes de más de 80 organizaciones, que representan a gobiernos, empresas y sociedad civil, y establece compromisos para guiar las agendas de las políticas digitales. Además requiere que sea respaldado por los gobiernos, empresas e individuos para que asuman compromisos concretos para proteger la web del abuso y asegurar que beneficie a la humanidad.

“Creo que el miedo de la gente a que ocurran cosas malas en Internet se está volviendo, con razón, cada vez mayor”, dijo Berners-Lee, el inventor de la web, al diario The Guardian. “Si dejamos la web como está, hay un gran número de cosas que pueden salir mal. Podríamos terminar con una distopía digital si no cambiamos las cosas. No es que necesitemos un plan de 10 años para la web, necesitamos darle la vuelta a la web ahora”.

El documento, publicado por la Fundación Web de Berners-Lee, cuenta con el respaldo de más de 150 organizaciones, desde Microsoft, Google y Facebook hasta el grupo de derechos digitales Electronic Frontier Foundation. En el momento de redactar el presente informe, ni Amazon ni Twitter habían respaldado los principios.

 

 

Los 100 sitios web más visitados en 2019

top-100-websites-1200-2

Los 100 sitios web más grandes generaron la asombrosa cifra de 206.000 millones de visitas en junio de 2019. Google, YouTube y Facebook ocuparon los primeros lugares, seguidos por Baidu y Wikipedia. Pornhub, la web más popular de pornografía en línea también ocupa un lugar destacado.

Los motores de búsqueda proporcionan el tejido conectivo que une a Internet, y representan la mayor parte del tráfico del sitio web en el ranking de los 100 primeros puestos.

Para alcanzar el puesto 100 en este ranking, su sitio web necesitaría alrededor de 350 millones de visitas en un solo mes. El análisis del ranking revela mucho acerca de cómo las personas de todo el mundo buscan información, qué servicios utilizan y cómo pasan el tiempo en línea.

A continuación se muestra la clasificación completa:

 

 

¿Qué hace que sea bueno un sitio web de bibliotecas?

what-makes-a-good

Unrein, Sabrina. What Makes a Good Library Website?.Syracuse University iSchool, 2019.

Texto completo

En el otoño de 2018, la iniciativa de Bibliotecas Públicas de iSchool (IPLI) trabajó en un proyecto que incluía la recopilación de estadísticas de bibliotecas. Una de las principales fuentes de estos datos fueron los sitios web de las bibliotecas estatales. Una de las cuestiones que se tuvieron en cuenta fue la falta de  consistencia en la usabilidad y el diseño. A partir de ello, se hizo una lluvia de ideas sobre lo que hacía grandes a ciertos sitios web y lo que cualquier biblioteca podía hacer para mejorar la experiencia de sus usuarios.

Ese proceso inspiró este documento. Este documento fue desarrollado como una herramienta para evaluar el diseño y las características actuales de su sitio web para bibliotecarios y administradores de sitios web. Se trataba de utilizar y evaluar los 50 sitios web de las bibliotecas estatales y señalar lo que hacía que algunos sitios web tuvieran más éxito que otros, así como las tendencias generales en el diseño.

Hubo varias características que consistentemente surgieron como necesitadas de mejora. Una de ellas era el diseño obsoleto, y cómo esos diseños a menudo equivalen a inaccesibilidad para los usuarios que utilizan lectores de pantalla, o cuán difícil puede ser el uso de esos sitios web para los usuarios. Las mejoras en un área a menudo pueden llevar a soluciones para otros problemas que los usuarios pueden enfrentar. Por ejemplo, la actualización del diseño de un sitio web probablemente lo hará más accesible.

No todos los sitios web de las bibliotecas tienen que tener el mismo aspecto o realizar las mismas funciones. Pero todos ellos deben tener en cuenta la seguridad, la accesibilidad, el diseño, la información de contacto y lo que puede hacer que un sitio web destaque como particularmente útil para sus usuarios. En el presente documento se abordan esos temas y se proponen posibles soluciones a los siguientes problemas:

  • Evitar una demanda de la ADA al mejorar la accesibilidad para todos los clientes.
  • Hacer que el diseño de un sitio web parezca más moderno y sea fácil de usar.
  • La implementación de HTTPS mejora la optimización de motores de búsqueda (SEO).
  • La importancia de la seguridad web.