Data Warehouse

Das Data Warehouse ist eine zentrale Datenbank, in der große Mengen an Informationen aus verschiedenen Quellen gespeichert, verwaltet und abgerufen werden. Als wichtigster Teil eines Data-Warehouse-Systems stellt es dauerhaft Daten zur Verfügung, die im Hinblick auf die Business Intelligence als Grundlage für unternehmerische Entscheidungen, zur Datenanalyse und zum Data Mining verwendet werden können.

Allgemeine Informationen

Das Konzept des Data Warehouse wurde bereits in den Neunziger Jahren erprobt. Ziel war es, einen Datenbestand zu erzeugen, der als informative Grundlage für taktische und strategische Entscheidungen eines Unternehmens brauchbar war. Die Schwierigkeit bestand darin, ein konsistentes System zu schaffen, das nicht nur die Sammlung, Segmentierung und Selektion von Daten ermöglichte, sondern auch den einfachen Zugriff seitens der Benutzer. Denn die Benutzer stellen teilweise individualisierte Anfragen an ein System und wollen ganz spezifische Antworten erhalten. Für die Filterung nach individuellen Informationen wird beispielsweise die Drilldown-Funktion verwendet.

Datenbestände, die wie Produktlisten mit Verkaufszahlen oder ID-Nummern angeordnet waren, konnten es nicht leisten, spezielle Anfragen zu ermöglichen und einzelne Daten zu selektieren. Das Data Warehouse wurde eingeführt, um verschiedene Ansprüche an Informationen zu bedienen und den Nutzern somit einen privilegierten Zugang zu einem großen Datenbestand zu ermöglichen – sei es das Management oder die Verkaufsabteilung in einem Unternehmen.

Funktionen

Ein Data Warehouse zeichnet sich durch verschiedene Merkmale aus und wird in der Regel von dem Sammeln und dem Abrufen der Daten getrennt. Als zentrale Stelle der Speicherung von Kundendaten, Lieferantendaten sowie Artikel- und Produktdaten muss das Data Warehouse in seiner Technik und Organisation hohen Ansprüchen genügen. Insofern als Anfragen von Nutzern von den verschiedensten Stellen in einem Unternehmen erfolgen können, ist das Data Warehouse sehr hohen Zugriffszahlen ausgesetzt – diese steigen noch, wenn es sich um internationale Unternehmen handelt.

Deshalb sind die meisten Data Warehouses in Schichten organisiert, die an das OSI-Schichtenmodell angelehnt sind:[1] Eine sammelt Daten, eine andere sortiert diese Daten, die dann von weiteren Schichten gespeichert und segmentiert werden. Der Abruf erfolgt dann über eine gesonderte Schicht mit grafischer Benutzeroberfläche.

Das eigentliche Data Warehouse lässt sich mit vier wichtigen Kriterien beschreiben:[2]

  • Themenorientierung:

Das Data Warehouse ist nach Themen sortiert. Es weist eine Struktur auf, die sich an der Organisation im Unternehmen orientiert. Daten sind nicht nach Produktinformationen sortiert, sondern vielmehr nach Produkten und Kunden, oder Produkten und Lieferanten.

  • Vereinheitlichung:

Die Daten aus den heterogenen Datenquellen werden hinsichtlich des Formates und der Auszeichnung mit Metadaten vereinheitlicht. Im Data Warehouse sollen nur noch durch das System lesbare Formate vorhanden sein.

  • Zeitorientierung:

Im Data Warehouse können Daten in verschiedenen Zeiteinheiten ausgelesen werden. Zeitintervalle ermöglichen eine präzise Auswertung verschiedener Fragestellungen. Neue Entwicklungen bei Data Warehouses beziehen sich auf die Aktualität der Daten – dann wird von Real-Time-Data-Warehouses gesprochen.

  • Beständigkeit:

Es werden keine Daten gelöscht. Vielmehr zeichnet sich ein Data Warehouse gerade durch einen großen Datenbestand über einen langen Zeitraum aus. Daraus ergeben sich sehr hohe technische Anforderungen an ein Data Warehouse System, bezüglich der Infrastruktur und der Effizienz der Daten-Verwaltung.


In vielen Fällen ist die Architektur eines Data Warehouse-System dreigeteilt: Die Sammlung, Speicherung sowie Abruf sind dann gänzlich voneinander getrennt. Wesentlich für das Data Warehouse ist die Tatsache, dass die Daten nicht von einer Ressource stammen, sondern aus vielen unterschiedlichen Quellen zusammengetragen wird. Der Prozess, wie die Daten zustande kommen, wird als ETL-Prozess bezeichnet. Die Begriffe Extract, Transform und Load (ETL) beschreiben einen Dreischritt, der zunächst Daten aus verschiedenen Quellen ausliest (extrahiert), Daten in das Format der Zieldatenbank überträgt (transformiert), um dann im letzten Schritt die Daten in die Zieldatenbank lädt. Dieser Prozess wird als Informationsintegration bezeichnet.

Bedeutung für die Suchmaschinenoptimierung

Ideen aus der Business Intelligence und dem Data Warehousing werden derzeit auch im Bereich Suchmaschinenoptimierung diskutiert. Zum Beispiel die Frage, wie man ganz unterschiedliche KPIs in Verbindung mit einem Unique User bringt und wie diese Daten auf viele User übertragen werden können.

Problematisch dabei ist die Verbindung von großen Datenbeständen und entsprechenden individuellen Anfragen bzw. Fragestellungen. Erste Tools, die ihre Datenbanken als Data Warehouse organisieren, sind schon auf dem Markt. Googles Universal Analytics ist ein Beispiel hierfür.[3]

Einzelnachweise

  1. Data Warehouse. itwissen.info. Abgerufen am 13. Mai 2014.
  2. Data Warehouse. enzyklopaedie-der-wirtschaftsinformatik.de. Abgerufen am 13. Mai 2014.
  3. Über Universal Analytics. support.google.com. Abgerufen am 13. Mai 2014.

Weblinks

KATEGORIE