Crawler

Crawler

Was ist ein Crawler?

Ein (Web-)crawler (auch bekannt als Webspider oder Webroboter) ist ein Programm oder automatisiertes Skript, das das World Wide Web auf methodische und automatisierte Weise durchsucht. Dieser Prozess wird als Webcrawling oder Spidering bezeichnet. Viele legitime Websites, insbesondere Suchmaschinen, verwenden Spidering als Mittel zur Bereitstellung aktueller Daten und zum Zwecke der Web-Indizierung.

Web-Suchmaschinen und einige andere Websites verwenden Crawler- oder Spidering-Software, um ihre Webinhalte oder Indizes der Webinhalte anderer Websites zu aktualisieren. Webcrawler kopieren dabei Seiten zur Verarbeitung durch eine Suchmaschine, die die heruntergeladenen Seiten indiziert, damit Benutzer effizienter suchen können.

Wie funktionieren Crawler?

Crawler verbrauchen Ressourcen auf besuchten Systemen und besuchen oft Standorte ohne Genehmigung. Fragen des Zeitplans, der Auslastung und der „Höflichkeit“ kommen ins Spiel, wenn auf große Sammlungen von Seiten zugegriffen wird. Es gibt Mechanismen für öffentliche Einrichtungen, die nicht gecrawlt werden wollen, um dies dem Crawling-Agent mitzuteilen. Beispielsweise kann die Einbindung einer robots.txt-Datei Bots anfordern, um nur Teile einer Website oder gar nichts zu indizieren.

Die Anzahl der Internetseiten ist extrem groß; selbst die größten Webcrawler reichen nicht aus, um einen vollständigen Index zu erstellen. Aus diesem Grund kämpften die Suchmaschinen in den ersten Jahren des World Wide Web, vor 2000, um relevante Suchergebnisse zu liefern. Heute liefern Webcrawler relevante Ergebnisse fast sofort.

Crawler können Hyperlinks und HTML-Code validieren. Man kann sie zudem auch für das Scraping von Bahnen verwenden (siehe auch datengesteuerte Programmierung).

Alle Buchstaben

Gleiche Buchstaben

Wirtschafts-Lexikon

Was ist ein Crawler?

Wie funktionieren Crawler?