Archivo web

El archivo web es el proceso de recopilar porciones de la World Wide Web para preservarlas en un archivo para uso de futuros investigadores, historiadores y el público en general [1] . Debido a la gran cantidad de información que se puede encontrar en la web, los archivistas en muchos casos utilizan rastreadores web para registrar páginas automáticamente. La organización de almacenamiento web más grande, que se basa en un enfoque de rastreo masivo, es Internet Archive , que, con su Wayback Machine, aspira a mantener un archivo de toda la web.

Historia

Una de las primeras prácticas de archivo web a principios de la década de 1990 fue la creación de listas de enlaces profesionales (como la Lista de grupos de derechos humanos de Amnistía Internacional o el directorio de Yahoo! y el Open Directory Project ). En ausencia de motores de búsqueda, estos sitios compilaron listas continuamente actualizadas de direcciones web útiles, organizándolas por categorías de temas. La solicitud, evaluación y categorización de sitios web, junto con la recopilación a gran escala, la clasificación manual y la visualización de sitios web, pueden considerarse una forma principal de análisis de sitios web. La aparición de los motores de búsqueda algorítmicos contribuyó a la desaparición casi total de estos métodos manuales.

El Taller Internacional de Archivado en la Web (IWAW), iniciado en 2001, ha creado una plataforma para compartir experiencias e intercambiar ideas. La posterior fundación del Consorcio Internacional de Preservación de Internet (IIPC) en 2003 facilitó en gran medida la colaboración internacional en el desarrollo de estándares y herramientas de código abierto para crear archivos web. Estos desarrollos y la parte cada vez mayor de la cultura humana que se crea y registra en la web todos los días están entrelazados, lo que hace inevitable que cada vez más bibliotecas y archivos se enfrenten a los desafíos del archivo web. Las bibliotecas estatales, los archivos estatales y varias organizaciones están involucradas en el almacenamiento de contenido culturalmente relevante en la web. [2] [3]

El software y los servicios comerciales de archivado web ahora también pueden ser utilizados por organizaciones privadas que necesitan archivar su contenido web para el registro comercial o por motivos normativos y legales. Archive-it , un servicio de pago ofrecido por Internet Archive, permite a las personas e instituciones guardar sitios completos y colecciones de sitios, por ejemplo. [4]

Métodos de recolección

Generalmente, los archivistas web almacenan diferentes tipos de contenido web, incluidas páginas web HTML , hojas de estilo, JavaScript , imágenes y videos . Además, los archivistas recopilan metadatos sobre los activos archivados, como el tiempo de acceso, el tipo MIME y la duración del contenido. Estos metadatos son útiles para establecer la autenticidad, procedencia y ubicación cronológica de la colección de archivo. [2]

Cosecha Remota

El método más común de almacenamiento web utiliza rastreadores web para automatizar el proceso de recopilación de páginas web. Por lo general, los rastreadores acceden a los sitios de la misma manera que lo hace un usuario a través de un navegador y exploran los enlaces internos a una profundidad determinada por el archivista, guardando su contenido en un archivo separado de la web "en vivo".

Los ejemplos de rastreadores web utilizados para archivar incluyen Heritrix , HTTrack , Wget .

Archivo de base de datos

El archivo de bases de datos se refiere a los métodos de archivo que involucran sitios basados en bases de datos. Este tipo de almacenamiento requiere convertir el contenido de la infraestructura de datos a un esquema estándar, a menudo usando XML . Una vez almacenados en el formato estándar, los contenidos de las diferentes bases de datos que se han archivado pueden hacerse accesibles a través de un único sistema de acceso. Este enfoque se ejemplifica con las herramientas DeepArc y Xinq desarrolladas por la Bibliotèque Nationale de France y la Biblioteca Nacional de Australia , respectivamente . DeepArc le permite mapear la estructura de una base de datos relacional en un esquema XML y exportar su contenido a un documento XML. [5] Xinq le permite publicar en línea el contenido así obtenido. [6]

Archivado transaccional

El archivo transaccional registra el intercambio de datos entre un servidor web y un navegador web. Este enfoque se utiliza principalmente para registrar en detalle lo que realmente ve un usuario en un momento dado y en un sitio web en particular. El software de registro generalmente intercepta cada solicitud HTTP y cada respuesta del servidor, filtrando cada respuesta para eliminar los duplicados.

Ahorro directo por parte de los usuarios

Existen varios servicios que permiten a cualquiera guardar páginas web individuales en archivos existentes, para permitir futuras consultas, facilitar la cita de páginas web en un formato estable y en un momento determinado o entregar la página a futuros investigadores. Probablemente el servicio más popular es el que ofrece Wayback Machine de Internet Archive, [7] pero existen alternativas como WebCite (diseñado específicamente para citar páginas web por académicos) [8] y Archive.is. [9]

Archivo de publicaciones periódicas

Hasta la década de 1990, antes del auge de Internet, las bibliotecas públicas municipales y universitarias mantenían una colección actualizada de todos los números de uno o más periódicos nacionales o locales.

Tras la difusión de los periódicos en línea, los archivos en papel han sido sustituidos progresivamente por archivos digitales o digitalizados, que también aportan evidencia de la edición impresa y efectivamente distribuida.
Algunas revistas comparten todo su archivo histórico de forma gratuita, mientras que otras solo ponen a disposición gratuitamente una selección de artículos, según la fecha de publicación, el autor o un tema temático específico.

Las revistas utilizan uno o más de los métodos descritos anteriormente: archivo automático en un sitio dedicado, separación de la base de datos relacional del software de acceso, filtrado y personalización de transacciones (el llamado "archivo transaccional").

Delpher.nl [10] y E-periodica.ch [11] son archivos gratuitos y digitalizados de publicaciones periódicas en neerlandés y publicadas en Suiza.

Dificultades y limitaciones

Limitaciones técnicas

Algunos servidores web están configurados para devolver páginas diferentes a las solicitudes del archivista web en lugar de responder a las solicitudes de un navegador [12] . Esto generalmente se hace para engañar a los motores de búsqueda al atraer más tráfico de usuarios a un sitio web. Esto a menudo se hace para evitar responsabilidades o para brindar contenido avanzado solo a aquellos navegadores que pueden mostrarlo. En muchos casos, los operadores de sitios web pueden evitar que los rastreadores accedan y soliciten la eliminación de material ya almacenado a través de archivos robot.txt . La web profunda y todo el material protegido por inicio de sesión (como la mayoría de las publicaciones en las redes sociales ) se excluyen en su mayoría de la recopilación automática. [13]

La velocidad con la que evoluciona la web hace que sea muy difícil archivar un sitio exactamente como es: en el caso de grandes colecciones, es probable que los sitios hayan cambiado antes de que finalice el rastreo. Elementos como imágenes y banners pueden ser excluidos de la colección (o registrados en un momento posterior) como contenido dinámico que solo es reproducido por la página pero que no forma parte de su código HTML . [2]

Limitaciones legales

Los archiveros web no solo deben lidiar con los desafíos del archivo web, sino que también deben lidiar con las leyes de propiedad intelectual. Peter Lyman argumenta, por ejemplo, que "aunque la web se considera popularmente como un recurso de dominio público, está protegida por derechos de autor ; por lo tanto, los archivistas no tienen ningún derecho legal para copiar la web". [14] No obstante, en muchos países las bibliotecas nacionales tienen la capacidad legal de copiar partes de la web gracias a una extensión de las leyes de depósito legal . [2]

Notas

^ Pouya Habibzadeh, Deterioro de las referencias a sitios web en artículos publicados en revistas médicas generales: revistas convencionales frente a pequeñas , p. 455–464 .
^ a b c d ( FR ) Francesca Musiani, Camille Paloque-Bergès, Valérie Schafer y Benjamin G. Thierry, Qu'est-ce qu'une archive du web? , Open Edition Press, 2019, DOI : 10.4000/books.oep.8713 , ISBN 979-10-365-0470-9 , OCLC 1089196793 . Consultado el 26 de mayo de 2019 ( archivado el 31 de marzo de 2019) .
^ Miguel Costa, Daniel Gomes y Mário J. Silva, La evolución del archivo web , en International Journal on Digital Libraries , vol. 18, núm. 3, 2017-9, págs. 191–205, DOI : 10.1007/s00799-016-0171-9 . Consultado el 26 de mayo de 2019 .
^ Archive-It: servicios de archivo web para bibliotecas y archivos , en archive-it.org . Consultado el 26 de mayo de 2019 (archivado desde el original el 11 de abril de 2019) .
^ DeepArc , de deeparc.sourceforge.net , 2005. Consultado el 26 de mayo de 2019 ( archivado el 20 de mayo de 2018) .
^ Herramienta de búsqueda y exploración de Xinq Xinq [Xml INQuiry] Herramienta de búsqueda y exploración para acceder a una base de datos XML , en nla.gov.au. Consultado el 26 de mayo de 2019 (archivado desde el original el 4 de enero de 2012) .
^ Archivo de Internet: Wayback Machine , en archive.org . Consultado el 26 de mayo de 2019 ( archivado el 3 de enero de 2014) .
^ WebCite , en webcitation.org . _ _ Consultado el 26 de mayo de 2019 (archivado desde el original el 13 de mayo de 2019) .
^ Archive.is , en archive.is . _ _ Consultado el 26 de mayo de 2019 ( archivado el 13 de noviembre de 2015) .
^ Página de búsqueda de Delpher.nl , en delpher.nl .
^ ( IT , FR , DE ) E-periodica-ch: términos de uso , en e-periodica.ch ( archivado el 20 de mayo de 2020) .
^ Parham Habibzadeh, ¿Son los sistemas de archivo actuales lo suficientemente confiables? .
^ Archivo web | Conservación digital , en conservazionedigitale.org . Consultado el 26 de mayo de 2019 ( archivado el 17 de abril de 2019) .
^ Peter Lyman, Archivado de la World Wide Web • CLIR , en CLIR . Consultado el 26 de mayo de 2019 ( archivado el 22 de abril de 2019) .

Bibliografía

Adrian Brown, Archivo de sitios web: una guía práctica para profesionales de la gestión de la información , Londres, Facet Publishing, 2006, ISBN 978-1-85604-553-7 .
( EN ) Niels Brügger, Archivar sitios web. Consideraciones y estrategias generales , Aarhus, The Center for Internet Research, 2005, ISBN 978-87-990507-0-3 .
( EN ) Micheal Day, Preserving the Fabric of Our Lives: A Survey of Web Preservation Initiatives , en Lecture Notes in Computer Science , vol. 2769, Berlín, Heidelberg, Springer, 2003, págs. 461-472, DOI : 10.1007 / 978-3-540-45175-4_42 .
( EN ) Mathieu Trudel y Gunther Eysenbach, Going, Going, Still There: Uso del servicio WebCite para archivar permanentemente páginas web citadas , en J Med Internet Res , vol. 7, núm. 5, 2005, DOI : 10.2196/jmir.7.5.e60 .