Data Crunching


Data Crunching (deutsch: Datenverarbeitung) ist eine Methode in der Informationswissenschaft (engl.: information science), die die automatisierte Verarbeitung von großen Mengen an Daten und Informationen (Big Data) vorbereitet und ermöglicht. Das Data Crunching besteht in der Vorbereitung und Modellierung des Systems oder der Anwendung, die benutzt wird: Die Daten werden aufbereitet, sortiert und strukturiert, um auf ihnen Algorithmen und Programmabläufe durchzuführen. Mit dem Begriff Crunched Data werden entsprechend Daten bezeichnet, die bereits in ein System importiert und verarbeitet wurden. Ähnliche Begriffe sind Data Munging und Data Wrangling. Bei beiden letztgenannten Begriffen steht die manuelle oder halbautomatische Verarbeitung von Daten im Zentrum, weshalb deutliche Unterschiede zum Data Crunching vorhanden sind.

Allgemeine Informationen zum Thema

Das letztendliche Ziel der Datenverarbeitung sind tiefere Erkenntnisse über die Materie, die mit den Daten abgebildet werden soll – beispielsweise im Bereich Business Intelligence, wo auf der Grundlage von großen Datenmengen fundierte Entscheidungen getroffen werden sollen. Weitere Anwendungsbereiche des Data Crunchings sind Medizin, Physik, Chemie, Biologie, Finanzwesen, Kriminalistik oder die Webanalyse. Je nach Kontext kommen dabei unterschiedliche Programmiersprachen und Tools zum Einsatz: Während Excel, Batch und Shell Programmierung früher verwendet wurden, kommen heute Sprachen wie Java, Python oder Ruby zum Einsatz.

Funktionsweise

Das Data Crunching bezieht sich allerdings nicht auf die explorative Analyse oder auf die Visualisierung von Daten – das erledigen spezielle Programme, die auf ihren Anwendungsbereich zugeschnitten sind. Es geht beim Data Crunching vielmehr um die korrekte Verarbeitung, sodass ein System mit den Datensätzen und dem Datenformat etwas anfangen kann. Data Crunching ist somit ein vorgeschalteter Prozess der Datenanalyse. Dieser Prozess kann, wie die Datenanalyse selbst, iterativ sein, wenn der Output des Crunching-Prozesses neue Daten oder Fehler beinhaltet. Das bedeutet, dass sich die Programmabläufe unter Umständen wiederholen, bis das gewünschte Ergebnis erreicht ist: Ein akkurater, korrekter Datensatz, der direkt weiterverarbeitet oder importiert werden kann und keine Fehler oder Bugs enthält.

Praxisbezug

Die meisten Data Crunching-Aufgaben können vereinfacht in drei Schritte eingeteilt werden. Zunächst werden die Rohdaten eingelesen, um sie im nächsten Schritt in ein gewähltes Format zu transformieren. Abschließend werden die Daten im richtigen Format ausgegeben, sodass sie weiterverarbeitet oder analysiert werden können.[1] Diese Dreiteilung hat den Vorteil, dass die einzelnen Daten (Input, Output) auch für andere Szenarien verwendet werden können.

Einige Anwendungsfälle von Data Crunching sind:

  • Die Weiterverarbeitung von vererbten Daten innerhalb eines Programmcodes.
  • Die Überführung eines Formates in ein anderes – zum Beispiel Plain Text in XML Datensätze.
  • Das Korrigieren von Fehlern in Datensätzen – seien es Rechtschreibfehler oder Programmfehler.
  • Die Extraktion von Rohdaten, um sie für eine spätere Auswertung vorzubereiten.

In der Regel kann durch Data Crunching viel Zeit gespart werden, weil die Abläufe nicht händisch durchgeführt werden müssen. Insbesondere bei großen Datensätzen und relationalen Datenbänken kann Data Crunching einen wesentlichen Vorteil bedeuten. Dabei ist jedoch auch eine entsprechende Infrastruktur notwendig, um die Rechenleistung für solche Operationen zur Verfügung zu haben. Ein System wie Hadoop verteilt beispielsweise die Rechnerlast auf mehrere Ressourcen und führt Rechenprozesse auf Computerclustern durch – es nutzt das Prinzip der Arbeitsteilung.[2]

Bedeutung für das Online Marketing

Problemstellungen, die mit Data Crunching gelöst werden können, sind in den Bereichen Online Marketing, Webdesign und Webanalyse relativ häufig anzutreffen. Vor allem große Onlineshops sind auf effektive Methoden angewiesen. Sollen beispielsweise 10.000 Datensätze aus einer relationalen Datenbank automatisch in ein anderes Format überführt werden, damit die entsprechenden Produkte vom Frontend dargestellt werden können, ist Data Crunching das Mittel der Wahl. Gerade vor dem Hintergrund von Big Data ist das Crunching von großen Datenmengen von zentraler Bedeutung: Je mehr Daten verarbeitet werden müssen, desto mehr Zeit kann mit Data Crunching gespart werden.[3]

Einzelnachweise

  1. Top Ten Data Crunching Tips and Tricks onlamp.com. Abgerufen am 20.03.2015
  2. Microsoft, Big Data und Hadoop – was steckt dahinter? blogs.technet.com. Abgerufen am 20.03.2015
  3. Data Crunching: Solve Everyday Problems Using Java, Python, and More media.pragprog.com. Abgerufen am 20.03.2015

Weblinks