Erklärung des Robotparser vom urllib Modul in Python!

Question

Exkurs: Was ist die Robots.txt Datei?

Answer 1

Die Robots.txt ist eine Datei, die im Hauptverzeichnis einer Webseite abgelegt wird. Diese gibt Crawlern, zum Beispiel der Suchmaschine DuckDuckGo, Bing und Google, vor, welche Seiten oder Verzeichnisse nicht gecrawlt werden sollen. Dabei kann zwischen verschiedenen Crawler, mittels User Agent, differenziert und zum Beispiel für Bing andere Regeln festgelegt werden als für Google.

Die Robots.txt hat keine Regel die eingehalten werden muss. Jeder Crawler interpretiert die Regeln etwas anders. Es ist also nett, wenn ein Crawler diese beachtet, aber nicht zwingend notwendig. Abgesehen davon gibt es auch Crawler, wie Bots, die Formulare auf Webseiten ausfüllen, denen die Regeln herzlich egal sind.

Da wir aber zu den Guten gehören, sollten wir bei unserem "Python Crawler"-Projekt den Robots.txt Dateien etwas Aufmerksamkeit schenken. Diese können wir mit dem Robotparser umsetzen.

Google hat im "Search Central Guide" auch sehr ausführliche Informationen zum Thema Robots.txt zur Verfügung gestellt, die zeigen, wie Google mit der Interpretation der Datei umgeht.

Den Beitrag von Google findet Ihr unter: https://developers.google.com/search/docs/advanced/robots/intro?hl=de