El archivo web es el proceso de recopilar porciones de la World Wide Web para preservarlas en un archivo para uso de futuros investigadores, historiadores y el público en general [1] . Debido a la gran cantidad de información que se puede encontrar en la web, los archivistas en muchos casos utilizan rastreadores web para registrar páginas automáticamente. La organización de almacenamiento web más grande, que se basa en un enfoque de rastreo masivo, es Internet Archive , que, con su Wayback Machine, aspira a mantener un archivo de toda la web.
Una de las primeras prácticas de archivo web a principios de la década de 1990 fue la creación de listas de enlaces profesionales (como la Lista de grupos de derechos humanos de Amnistía Internacional o el directorio de Yahoo! y el Open Directory Project ). En ausencia de motores de búsqueda, estos sitios compilaron listas continuamente actualizadas de direcciones web útiles, organizándolas por categorías de temas. La solicitud, evaluación y categorización de sitios web, junto con la recopilación a gran escala, la clasificación manual y la visualización de sitios web, pueden considerarse una forma principal de análisis de sitios web. La aparición de los motores de búsqueda algorítmicos contribuyó a la desaparición casi total de estos métodos manuales.
El Taller Internacional de Archivado en la Web (IWAW), iniciado en 2001, ha creado una plataforma para compartir experiencias e intercambiar ideas. La posterior fundación del Consorcio Internacional de Preservación de Internet (IIPC) en 2003 facilitó en gran medida la colaboración internacional en el desarrollo de estándares y herramientas de código abierto para crear archivos web. Estos desarrollos y la parte cada vez mayor de la cultura humana que se crea y registra en la web todos los días están entrelazados, lo que hace inevitable que cada vez más bibliotecas y archivos se enfrenten a los desafíos del archivo web. Las bibliotecas estatales, los archivos estatales y varias organizaciones están involucradas en el almacenamiento de contenido culturalmente relevante en la web. [2] [3]
El software y los servicios comerciales de archivado web ahora también pueden ser utilizados por organizaciones privadas que necesitan archivar su contenido web para el registro comercial o por motivos normativos y legales. Archive-it , un servicio de pago ofrecido por Internet Archive, permite a las personas e instituciones guardar sitios completos y colecciones de sitios, por ejemplo. [4]
Generalmente, los archivistas web almacenan diferentes tipos de contenido web, incluidas páginas web HTML , hojas de estilo, JavaScript , imágenes y videos . Además, los archivistas recopilan metadatos sobre los activos archivados, como el tiempo de acceso, el tipo MIME y la duración del contenido. Estos metadatos son útiles para establecer la autenticidad, procedencia y ubicación cronológica de la colección de archivo. [2]
El método más común de almacenamiento web utiliza rastreadores web para automatizar el proceso de recopilación de páginas web. Por lo general, los rastreadores acceden a los sitios de la misma manera que lo hace un usuario a través de un navegador y exploran los enlaces internos a una profundidad determinada por el archivista, guardando su contenido en un archivo separado de la web "en vivo".
Los ejemplos de rastreadores web utilizados para archivar incluyen Heritrix , HTTrack , Wget .
El archivo de bases de datos se refiere a los métodos de archivo que involucran sitios basados en bases de datos. Este tipo de almacenamiento requiere convertir el contenido de la infraestructura de datos a un esquema estándar, a menudo usando XML . Una vez almacenados en el formato estándar, los contenidos de las diferentes bases de datos que se han archivado pueden hacerse accesibles a través de un único sistema de acceso. Este enfoque se ejemplifica con las herramientas DeepArc y Xinq desarrolladas por la Bibliotèque Nationale de France y la Biblioteca Nacional de Australia , respectivamente . DeepArc le permite mapear la estructura de una base de datos relacional en un esquema XML y exportar su contenido a un documento XML. [5] Xinq le permite publicar en línea el contenido así obtenido. [6]
El archivo transaccional registra el intercambio de datos entre un servidor web y un navegador web. Este enfoque se utiliza principalmente para registrar en detalle lo que realmente ve un usuario en un momento dado y en un sitio web en particular. El software de registro generalmente intercepta cada solicitud HTTP y cada respuesta del servidor, filtrando cada respuesta para eliminar los duplicados.
Existen varios servicios que permiten a cualquiera guardar páginas web individuales en archivos existentes, para permitir futuras consultas, facilitar la cita de páginas web en un formato estable y en un momento determinado o entregar la página a futuros investigadores. Probablemente el servicio más popular es el que ofrece Wayback Machine de Internet Archive, [7] pero existen alternativas como WebCite (diseñado específicamente para citar páginas web por académicos) [8] y Archive.is. [9]
Hasta la década de 1990, antes del auge de Internet, las bibliotecas públicas municipales y universitarias mantenían una colección actualizada de todos los números de uno o más periódicos nacionales o locales.
Tras la difusión de los periódicos en línea, los archivos en papel han sido sustituidos progresivamente por archivos digitales o digitalizados, que también aportan evidencia de la edición impresa y efectivamente distribuida.
Algunas revistas comparten todo su archivo histórico de forma gratuita, mientras que otras solo ponen a disposición gratuitamente una selección de artículos, según la fecha de publicación, el autor o un tema temático específico.
Las revistas utilizan uno o más de los métodos descritos anteriormente: archivo automático en un sitio dedicado, separación de la base de datos relacional del software de acceso, filtrado y personalización de transacciones (el llamado "archivo transaccional").
Delpher.nl [10] y E-periodica.ch [11] son archivos gratuitos y digitalizados de publicaciones periódicas en neerlandés y publicadas en Suiza.
Algunos servidores web están configurados para devolver páginas diferentes a las solicitudes del archivista web en lugar de responder a las solicitudes de un navegador [12] . Esto generalmente se hace para engañar a los motores de búsqueda al atraer más tráfico de usuarios a un sitio web. Esto a menudo se hace para evitar responsabilidades o para brindar contenido avanzado solo a aquellos navegadores que pueden mostrarlo. En muchos casos, los operadores de sitios web pueden evitar que los rastreadores accedan y soliciten la eliminación de material ya almacenado a través de archivos robot.txt . La web profunda y todo el material protegido por inicio de sesión (como la mayoría de las publicaciones en las redes sociales ) se excluyen en su mayoría de la recopilación automática. [13]
La velocidad con la que evoluciona la web hace que sea muy difícil archivar un sitio exactamente como es: en el caso de grandes colecciones, es probable que los sitios hayan cambiado antes de que finalice el rastreo. Elementos como imágenes y banners pueden ser excluidos de la colección (o registrados en un momento posterior) como contenido dinámico que solo es reproducido por la página pero que no forma parte de su código HTML . [2]
Los archiveros web no solo deben lidiar con los desafíos del archivo web, sino que también deben lidiar con las leyes de propiedad intelectual. Peter Lyman argumenta, por ejemplo, que "aunque la web se considera popularmente como un recurso de dominio público, está protegida por derechos de autor ; por lo tanto, los archivistas no tienen ningún derecho legal para copiar la web". [14] No obstante, en muchos países las bibliotecas nacionales tienen la capacidad legal de copiar partes de la web gracias a una extensión de las leyes de depósito legal . [2]