Scraping

« Back to Glossary Index

Scraping

Scraping – Was ist das?

Web Scraping ist unter vielen anderen Namen bekannt, je nachdem, wie ein Unternehmen es nennen möchte, Screen Scraping, Web Data Extraction, Web Harvesting und mehr. Wie man es auch nennt, es ist eine Technik, die verwendet wird, um große Mengen von Daten von Websites zu extrahieren. Die Daten werden von verschiedenen Websites und Datenträgern extrahiert und lokal gespeichert, um sie sofort zu nutzen oder zu analysieren, was zumeist im Anschluss später durchgeführt werden soll. Die Daten werden in einem lokalen Dateisystem oder Datenbanktabellen gespeichert, je nach Struktur der extrahierten Daten. Die meisten Websites, die wir regelmäßig besuchen, erlauben es uns, nur den Inhalt zu sehen und erlauben im Allgemeinen keine Kopien oder Downloads. Das manuelle Kopieren der Daten ist so gut wie das Ausschneiden von Artikeln aus Zeitungen und kann Tage und Wochen dauern. Dabei ist Web Scraping die Technik der Automatisierung dieses Prozesses, so dass ein intelligentes Skript Ihnen helfen kann, Daten aus Webseiten Ihrer Wahl zu extrahieren und in einem strukturierten Format zu speichern.

Scraping – Wie funktioniert eine Web Scraping Software?

Eine Web-Scraping-Software lädt automatisch mehrere Webseiten nacheinander und extrahiert Daten, je nach Anforderung. Es ist entweder speziell für eine bestimmte Website entwickelt worden oder es ist eine, die basierend auf einer Reihe von Parametern konfiguriert werden kann, um mit jeder Website zu arbeiten. Mit einem Klick auf eine Schaltfläche können Sie die auf einer Website verfügbaren Daten ganz einfach in einer Datei auf Ihrem Computer speichern.

In der heutigen Welt übernehmen intelligente Bots das Web-Scraping. Im Gegensatz zum Screen Scraping, welches nur kopiert, was auch immer die Pixel auf dem Bildschirm anzeigen, extrahieren diese Bots den zugrunde liegenden HTML-Code sowie die in einer Datenbank im Hintergrund gespeicherten Daten.

Scraping – Was Sie dabei beachten sollten

Obwohl es ein großartiges Werkzeug ist, um allerlei Einblicke zu gewinnen, gibt es einige rechtliche Aspekte, um die Sie sich kümmern sollten, damit Sie nicht in Schwierigkeiten geraten.

1. Respektieren Sie die Datei robots.txt.
Überprüfe immer die Datei Robots.txt, von welcher Website du auch immer scrapen möchtest. Das Dokument hat eine Reihe von Regeln, die definieren, wie Bots mit der Website interagieren sollen. Wenn Sie dennoch das Scraping in einer Weise vollziehen, die gegen diese Regeln verstößt, bewegen Sie sich womöglich in einer rechtlichen Grauzone.

2. Achten Sie darauf, Server nicht zu häufig zu belasten.
Werden Sie nicht zu einem Dauerscraper. Einige Webserver werden bei sehr hoher Last zum Opfer von Ausfallzeiten. Die Bots fügen dem Server einer Website mehr Interaktionlast hinzu, und wenn die Last einen bestimmten Punkt überschreitet, kann der Server langsam werden oder abstürzen und die Benutzererfahrung einer Website zerstören.

3. Es ist besser, wenn Sie Daten während der Leerlaufzeit scrapen.
Um nicht in Web-Traffic und Serverausfallzeiten verstrickt zu sein, können Sie nachts oder zu Zeiten, in denen Sie sehen, dass der Traffic für eine Website geringer ist, scrapen.

4. Verantwortungsvoller Umgang mit den gescrapten Daten
Die Richtlinien sollten eingehalten werden, und die Veröffentlichung von urheberrechtlich geschützten Daten kann schwerwiegende Folgen haben. Es ist daher besser, wenn Sie die gesammelten Daten verantwortungsbewusst nutzen.

 

FAQs

Was ist Scraping?

Scraping ist eine Technik, um große Mengen von Daten von Websites zu extrahieren und diese dann anschließend lokal zu speichern, um sie sofort Zugriff darauf zu haben und sie analysieren zu können.

Ist Scraping legal?


Das Web Scraping ist an sich nicht illegal ist, aber man sollte dabei ethisch vorgehen. Wenn es richtig gemacht wird, kann Web Scraping enorm dabei helfen, das Internet optimal zu nutzen, das beste Beispiel dafür ist die Google-Suchmaschine.

Was sind die Vorteile des Web Scrapings?

Web Scraping ist ein Prozess, der die Extraktion von Daten auf effiziente und schnelle Weise automatisiert. Mit Hilfe von Web Scraping kannst du Daten von jeder beliebigen Website auf deinem Computer extrahieren, ganz gleich, wie groß die Daten sind. Außerdem können Websites Daten enthalten, die du nicht kopieren und einfügen kannst.

« Back to Glossary Index

Mit Spitzenpositionen zum neuen Umsatzkanal.

Lass Google für Dich arbeiten, denn aus Besuchern werden Kunden.

Über den Autor

Dein kostenfreies Geschenk!

Das SEO Praxisbuch
2022

Du willst mehr Besucher und bessere Google Rankings?

Lad dir jetzt kostenlos das SEO Praxisbuch
“Die 7 SEO Sünden” herunter.