Tractor

Un rastreador (también llamado rastreador web , araña o robot ) es un software que analiza los contenidos de una red (o base de datos ) de manera metódica y automatizada, generalmente en nombre de un motor de búsqueda . En concreto, un rastreador es un tipo de bot (programa o script que automatiza operaciones), que suele adquirir una copia en texto de todos los documentos presentes en una o varias páginas web, creando un índice que permite, posteriormente, su búsqueda y visualización. .

Un uso extremadamente común de rastreadores se hace en la web ; se basa en una lista de URL para visitar proporcionada por el buscador (que, inicialmente, se basa a su vez en las direcciones sugeridas por los usuarios o en una lista precompilada por los propios programadores). Al analizar una URL, identifica todos los hipervínculos en el documento y los agrega a la lista de URL para visitar. El proceso se puede terminar manualmente o después de que se haya seguido un cierto número de conexiones.

Además, los rastreadores activos en Internet tienen derecho a ser abordados por lo que se indica en el archivo " robots.txt " ubicado en la raíz del sitio. Dentro de este archivo, puede indicar qué páginas no deben analizarse. El rastreador tiene el derecho de seguir el consejo, pero no la obligación.

Nombres de las arañas de los principales buscadores, actualizados a 21 de febrero de 2008
Tractor Buscador
Robot de Google Google
Rápido Rápido - Alltheweb
ñam Inktomi - Yahoo!
Scooter AltaVista
Mercator AltaVista
Pregúntale a Jeeves Pregúntale a Jeeves
agente de teomas teoma
archivador Alexa - Archivo de Internet
yahoo! ñam yahoo
Romilda Facebook
PatoPatoBot Pato Pato a ganar

Ejemplos de rastreadores web

La siguiente es una lista de arquitecturas de rastreadores públicos de propósito general:

Rastreador de código abierto

Críticas

El término Web Crawler también se usa para indicar navegadores sin conexión controvertidos , como: PageNest (anteriormente WebStripper ), MSIECrawler , Offline Explorer , etc. Estos programas están diseñados para descargar el contenido de un sitio web completo al disco duro de la computadora del usuario. Por ejemplo, Memory Alpha prohíbe su uso porque acceden al sitio de forma agresiva, lo que ralentiza drásticamente el uso del sitio por parte de otros usuarios [1] y los infractores corren el riesgo de ser bloqueados [2] .

Notas

  1. ^ Memory Alpha: descarga de la base de datos , en memory-alpha.org . Consultado el 28 de diciembre de 2010 .
  2. ^ Ver el archivo robots.txt de Memory Alpha

Artículos relacionados

Otros proyectos

Enlaces externos