LOADING

Scraping

Scraping

by Niels Stuck April 30, 2019

Was ist Scraping

Was ist Scraping?

Web Scraping ist unter vielen anderen Namen bekannt, je nachdem, wie ein Unternehmen es nennen möchte, Screen Scraping, Web Data Extraction, Web Harvesting und mehr. Wie man es auch nennt, es ist eine Technik, die verwendet wird, um große Mengen von Daten von Websites zu extrahieren. Die Daten werden von verschiedenen Websites und Datenträgern extrahiert und lokal gespeichert, um sie sofort zu nutzen oder zu analysieren, was zumeist im Anschluss später durchgeführt werden soll. Die Daten werden in einem lokalen Dateisystem oder Datenbanktabellen gespeichert, je nach Struktur der extrahierten Daten. Die meisten Websites, die wir regelmäßig besuchen, erlauben es uns, nur den Inhalt zu sehen und erlauben im Allgemeinen keine Kopien oder Downloads. Das manuelle Kopieren der Daten ist so gut wie das Ausschneiden von Artikeln aus Zeitungen und kann Tage und Wochen dauern. Dabei ist Web Scraping die Technik der Automatisierung dieses Prozesses, so dass ein intelligentes Skript Ihnen helfen kann, Daten aus Webseiten Ihrer Wahl zu extrahieren und in einem strukturierten Format zu speichern.

 

Wie funktioniert eine Web-Scraping Software?

Eine Web-Scraping-Software lädt automatisch mehrere Webseiten nacheinander und extrahiert Daten, je nach Anforderung. Es ist entweder speziell für eine bestimmte Website entwickelt worden oder es ist eine, die basierend auf einer Reihe von Parametern konfiguriert werden kann, um mit jeder Website zu arbeiten. Mit einem Klick auf eine Schaltfläche können Sie die auf einer Website verfügbaren Daten ganz einfach in einer Datei auf Ihrem Computer speichern.

In der heutigen Welt übernehmen intelligente Bots das Web-Scraping. Im Gegensatz zum Screen Scraping, welches nur kopiert, was auch immer die Pixel auf dem Bildschirm anzeigen, extrahieren diese Bots den zugrunde liegenden HTML-Code sowie die in einer Datenbank im Hintergrund gespeicherten Daten.

 

Was Sie beim Scrapen beachten sollten

Obwohl es ein großartiges Werkzeug ist, um allerlei Einblicke zu gewinnen, gibt es einige rechtliche Aspekte, um die Sie sich kümmern sollten, damit Sie nicht in Schwierigkeiten geraten.

 

1. Respektieren Sie die Datei robots.txt.
Überprüfe immer die Datei Robots.txt, von welcher Website du auch immer scrapen möchtest. Das Dokument hat eine Reihe von Regeln, die definieren, wie Bots mit der Website interagieren sollen. Wenn Sie dennoch das Scrapen in einer Weise vollziehen, die gegen diese Regeln verstößt, bewegen Sie sich womöglich in einer rechtlichen Grauzone.

2. Achten Sie darauf, Server nicht zu häufig zu belasten.
Werden Sie nicht zu einem Dauerscraper. Einige Webserver werden bei sehr hoher Last zum Opfer von Ausfallzeiten. Die Bots fügen dem Server einer Website mehr Interaktionlast hinzu, und wenn die Last einen bestimmten Punkt überschreitet, kann der Server langsam werden oder abstürzen und die Benutzererfahrung einer Website zerstören.

3. Es ist besser, wenn Sie Daten während der Leerlaufzeit scrapen.
Um nicht in Web-Traffic und Serverausfallzeiten verstrickt zu sein, können Sie nachts oder zu Zeiten, in denen Sie sehen, dass der Traffic für eine Website geringer ist, scrapen.

4. Verantwortungsvoller Umgang mit den gescrapten Daten
Die Richtlinien sollten eingehalten werden, und die Veröffentlichung von urheberrechtlich geschützten Daten kann schwerwiegende Folgen haben. Es ist daher besser, wenn Sie die gesammelten Daten verantwortungsbewusst nutzen.

« Back to Glossary Index
Social Shares
Niels Stuck

SEO mit Leidenschaft seit 2013, der hier für Ihren zukünftigen Weberfolg bloggt. Experte im Bereich des Linkbuilding und der Offpage Optimierung. Viertieft darin den Algorithmus zu erforschen und immer auf dem neusten Stand, was die stetig variierende Welt der Suchmaschinenstandards betrifft. Fan der 80/20 Regel und mit glasklarer Effizienz an Ergebnissen für Ihr Webprojekt orientiert.

Leave a Comment

Your email address will not be published. Required fields are marked *

Sie wollen mehr Besucher durch SEO?

Nutzen Sie unsere kostenlose SEO Analyse um Ihre Seite zu verbessern!
Website verbessern
close-link
Click Me