Scraping


Als Scraping wird meist das sogenannte Screen Scraping bzw. genauer, das „Web Scraping“ bezeichnet. Dabei werden Inhalte von Websites manuell oder mit Hilfe von Software extrahiert, kopiert und gespeichert sowie ggf. in verändertem Design auf der eigenen Website wiederverwendet. Positiv angewandt bietet Webscraping die Möglichkeit, einer Website mit Inhalten anderer Websites einen Mehrwert zu bieten. Im entgegengesetzten Fall verletzt Scraping Urheberrechte und wird als Spam bewertet.

Techniken

Scraping kann mit verschiedenen Techniken durchgeführt werden. Hier werden die gängigen kurz präsentiert:

  • über http-Manipulation können Inhalte von statischen oder dynamischen Websites per http-Request kopiert werden
  • mit dem „Data Mining“ genannten Verfahren werden verschiedene Inhalte anhand der Templates und Skripte identifiziert, in welchen sie eingebettet sind. Die Inhalte werden mit Hilfe eines Wrappers umgewandelt und für eine andere Website verfügbar gemacht. Der Wrapper fungiert hier als eine Art Schnittstelle zwischen den beiden Systemen.
  • Scraping-Tools übernehmen vielfältige Scraping-Aufgaben sowohl automatisiert als auch manuell gesteuert. Dabei reicht die Bandbreite von kopierten Inhalten bis hin zu kopierten Strukturen oder Funktionalitäten.
  • HTML-Parser, wie sie auch für Browser verwendet werden, ziehen Daten von anderen Websites und wandeln diese für andere Zwecke um.
  • Manuelles Kopieren von Inhalten wird häufig auch als Scraping bezeichnet. Hierbei reicht die Bandbreite vom einfachen Kopieren von Texten bis hin zum Kopieren von ganzen Quellcode-Schnipseln. Manuelles Scraping wird häufig dann genutzt, wenn Scraping-Programme z.B. durch die robots.txt blockiert werden.
  • Auslesen von Mikroformaten gehört auch zum Bereich Scraping. In der Weiterentwicklung des Semantischen Webs gehören Mikroformate zu beliebten Bestandteilen einer Website.

Gängige Verwendungszwecke

Scraping wird für viele Einsatzwecke verwendet. Hier seien nur ein paar Beispiele genannt:

  • Web-Analyse-Tools: rufen Platzierungen bei Google und anderen Suchmaschinen ab und bereiten diese Daten für ihre Kunden auf. Im Jahr 2012 wurde dieser Bereich stark diskutiert, als Google einige Dienste gesperrt hat.[1]
  • RSS-Dienste: hierbei werden über RSS-Feeds bereitgestellte Inhalte auf anderen Websites verwendet
  • Wetterdaten: viele Websites wie Reiseportale nutzen Wetterdaten von großen Meteo-Seiten, um ihre eigene Funktionalität zu erhöhen
  • Fahr- und Flugpläne: so nutzt u.a. Google relevante Daten von der Bahn, um die Reiseplanfunktion in Google Maps zu ergänzen

Scraping als Spam-Disziplin

Im Rahmen der Content Syndication können Inhalte von Websites an andere Verwerter, also Publisher verteilt werden. Scraping kann diese Regeln allerdings vielfach verletzen. So gibt es Websites, die nur aus Inhalten bestehen, die sie von anderen Websites gescrapt haben. Sehr häufig findet man im Web z.B. Seiten, deren Informationen direkt aus Wikipedia kopiert wurden, ohne dass eine Quellenangabe zu finden ist. Ein anderer Fall von Spam-Scraping besteht darin, dass Online-Shops ihre Produktbeschreibungen von erfolgreichen Konkurrenten kopieren. Oftmals werden dabei sogar Formatierungen direkt übernommen.

Für Webmaster ist es wichtig zu erfahren, ob Inhalte von anderen Websites kopiert werden. Denn im Extremfall kann das Scraping von Google dem Urheber zur Last gelegt werden, was dann eine Abwertung der gescrapten Domain zur Folge haben könnte. Um zu wissen, wann Content von anderen Websites übernommen wird, können z.B. Alerts in Google Analytics eingerichtet werden.[2]

Google als Scraper

Auch Suchmaschinenprovider wie Google nutzen Scraping, um eigene Inhalte mit relevanten Informationen von anderen Quellen aufzuwerten. So wendet Google Scraping-Methoden u.a. an, um seine OneBox zu füllen oder den Knowledge Graph zu gestalten.[3] Darüber hinaus scrapt Google das Web ebenfalls, um Einträge auf Google Maps anzureichern, die noch nicht von Unternehmen beansprucht wurden. Auch für die Anreicherung von Rich Snippets holt Google relevante Daten von Websites, die ihre Inhalte mit Microformaten ausgestattet haben.

Scraping verhindern

Mit einfachen Maßnahmen können Webmaster verhindern, dass ihre Websites von Scraping betroffen werden:

  • Blockade von Bots über die robots.txt
  • Einfügen von Captcha-Abfragen auf der Website
  • CSS für die Anzeige von Telefonnummern oder Mail-Adressen verwenden
  • Verstärken der Firewall-Regeln für den Server

Einzelnachweise

  1. Google geht gegen SEO-Tools vor. golem.de. Abgerufen am 07.12.2013.
  2. 7 Google Analytics Alerts für SEO. aQvisit.com. Abgerufen am 08.12.2013.
  3. Google goes scraper with Hummingbird update. Trevin’s Blog. Abgerufen am 07.12.2013.

Weblinks