Tweet Indexing

Tweet Indexing kann als das Sammeln, Auslesen und Speichern von Tweets beschrieben werden, um diese Daten auf unterschiedliche Weise zu nutzen – zum Beispiel bei Anwendungen aus den Bereichen Information Retrieval und Data Mining.

Allgemeine Informationen zum Thema

Beim Tweet Indexing werden von Nutzern versendete Tweets zunächst in einer Art Datenstrom gesammelt. Dieser Datenstrom wird umgangssprachlich auch als Firehouse bezeichnet, weil pro Minute etwa 6000 Tweets weltweit veröffentlicht werden.[1] Für einen Crawler wäre es sehr aufwendig, alle aktuellen Daten aus dem Firehouse zu erfassen. Zumal derartige Anfragen die Website-Architektur von Twitter stark belasten würden.

Bereits bis zum Jahr 2011 hatte Google einen Vertrag mit Twitter, um den Datenstrom zu nutzen. Dieser Vertrag lief aus und bis Februar 2015 musste Google Tweets crawlen, wenn das Unternehmen diese in den SERPs anzeigen wollte. Der aktuelle Vertrag sieht wieder einen direkten Zugang zum Datenstrom vor. Doch Google ist nicht das einzige Unternehmen, das an den Daten interessiert ist und sie nutzen darf. Auch Bing kann per Direktzugang auf aktuelle Tweets zugreifen.[2]

Tweet Indexing bei Twitter

Twitter selbst speichert alle Tweets und generiert einen eigenen Tweet Index. Seit November 2014 arbeitet das Unternehmen an einem eigenen Tweet Index, der alle Tweets ab dem Jahr 2006 beinhalten soll. Er basiert auf dem Real-Time-Index, wurde jedoch um einige wesentliche Merkmale erweitert, sodass die großen Datenströme bewältigt werden können. Das überaus komplexe Big Data-Verfahren soll hier vereinfacht dargestellt werden:[3]

  • In einem ersten Schritt werden alle Tweets, die an einem Tag veröffentlicht werden, in eine Batch-Datei umgewandelt. Twitter nutzt die Batch-Programmierung, um wiederkehrende Aufgaben wie das tägliche Sammeln von Tweets so effektiv wie möglich zu bearbeiten.
  • Im zweiten Schritt werden diese Batch-Aufgaben als Pipeline oder Pipe in ein System eingespeist, das auf Hadoop basiert. Im Prinzip werden die Daten auf verschiedene Rechnersysteme verteilt und mithilfe der Pipeline organisiert. Hadoop erlaubt durch dieses Prinzip die simultane und effektive Verarbeitung von sehr großen Datenmengen. Dazu gehören auch Indikatoren wie das Engagement der Nutzer, das in Klicks auf Favoriten, Retweets oder Antworten auf einen Tweet gemessen wird und später zur Bewertung von Tweets herangezogen wird.
  • Der dritte Schritt besteht darin, einen Index aufzubauen. Die nun verfügbaren Daten aus der Pipeline werden invertiert. Das bedeutet, dass zu den Daten Indexe gebildet werden, wobei die Datenstruktur von der Indexstruktur unabhängig ist. Twitter nutzt zur Speicherung der Daten zum einen das Dateiverwaltungssystem HDFS von Hadoop und zum anderen eine eigene Ordnung in Form von Segmenten. Mithilfe dieser Segmente werden verschiedene Batch-Dateien gebündelt und jeder Tweet aus einem Segment wird als invertierter Index gespeichert. Auf diese Weise kann der Index durchsucht werden, ohne dass alle Daten durchsucht werden müssen.
  • Im letzten Schritt werden die invertierten Indexe weiterverarbeitet, um sie zeitlich und auch physisch einsortieren zu können. Dies erfolgt mit den sogenannten Earlybirds Maschinen, die schon bei der Real-Time-Search verwendet wurden. Im Grunde werden die Daten in zweidimensionalen Hash-Tabellen (sogenannte Database Shards) und in bestimmten Zeiteinheiten (engl: time tiers) auf die Speicher-Architektur verteilt. Die Earlybird Maschinen werden darüber hinaus vervielfältigt – so können Suchanfragen im Frontend schneller beantwortet werden.

Tweet Indexing bei Google und Bing

Auch Google und Bing zeigen Tweets in ihren Suchergebnislisten an, weil Twitter mit beiden Unternehmen einen Vertrag über den Austausch der Daten abgeschlossen hat. Twitter stellt Google und Bing den Datenstrom mithilfe einer sogenannten Streaming API zur Verfügung, die einen Echtzeit-Zugang beinhaltet: Sobald ein Tweet veröffentlicht wird, sind die entsprechenden Daten im jeweiligen System hinterlegt. Google und Bing nutzen ebenfalls Hadoop für ihre eigenen Zwecke. Deshalb kann vermutet werden, dass die Prozesse ähnlich ablaufen, wie es bei Twitter der Fall ist.

Bedeutung für die das Social Media Marketing

Für alle Vertragspartner haben diese Deals Vorteile: Twitter erhofft sich zusätzlichen Traffic aus den organischen Suchergebnissen von Google und Bing. Diesen Besuchern könnte Twitter Werbung anzeigen und so das eigene Werbegeschäft ankurbeln. Zudem könnten potenzielle Twitter-Nutzer unter den Besuchern zu finden sein – die Nutzerbasis soll natürlich weiterhin vergrößert werden.

Im Umkehrschluss heißt das, dass die Reichweite des Microblogging-Dienstes erhöht wird. Das Social Media Marketing von Unternehmen kann profitieren, wenn mehr Ressourcen in diesen Bereich investiert werden. Sei es die Produktion von qualitativ hochwertigen Inhalten, die via Twitter verteilt werden, oder die Nutzung von Twitter Ads, um Leads zu erzeugen.[4]

Die Daten können darüber hinaus als Basis für Marketing-Methoden wie Newsjacking und Growth Hacking dienen. Bereits Twitters eigene Infrastruktur ermöglicht unterschiedliche Anwendungsfälle. Im Hinblick auf Veranstaltungen, Fernseh- und Sport-Events, Branchendiskussionen oder gesellschaftliche Ereignisse kann nach Tweets, Keywords sowie Hashtags gesucht werden. Bestimmte Zeitintervalle können ebenfalls ausgewählt werden. Die Verfügbarkeit von solchen Daten hat allerdings auch Auswirkungen auf das Reputations-Management. Zwar indexieren Google und Bing derzeit noch nicht alle abgesendeten Tweets. Die ersten Studien über Tweet Indexing deuten darauf hin, dass hauptsächlich Tweets von Profilen mit vielen Followern indexiert werden.[5] Doch auch eine Speicherung von wenigen Tweets eines Unternehmens kann sich auf dessen Reputation auswirken.

Für Google und Bing bedeutet die Verfügbarkeit von aktuellen Tweets ein Plus an Informationen, nach denen Nutzer eventuell suchen könnten. Tweets sind allgemein oft mit interessanten Inhalten und Links angereichert. Diese Inhalte könnten für die Suchmaschinen hilfreich sein, weil sie als Hinweise auf tatsächliche Nutzerinteressen fungieren können.[6]

Einzelnachweise

Weblinks