Information Retrieval


Beim Information Retrieval (Informationsrückgewinnung) werden unstrukturierte Daten ausgewertet, so wie es zum Beispiel Suchmaschinen mit dem World Wide Web machen.

Das Prinzip

Grundlage ist eine große Datenmenge. Es sollen zum Beispiel Informationen zu einem bestimmten Thema gefunden werden. Dafür muss die Datenmenge durchsucht werden und das gefundene muss bewertet werden, ob es eine wichtige Information ist und ob sie wichtiger ist, als eine andere gefundene Information. All das hat keine eindeutige Antwort und für die Daten, die als Ergebnis geliefert werden, gibt es keine perfekte Reihenfolge. Die Bewertung der Daten soll für den Menschen nützlich sein. Grundsätzlich geht es also nicht um die Neuerstellung von Daten, sondern um das Verwalten von vorhandenen. Gesucht werden keine einzelnen Wörter, sondern größere Datenmengen.

Anwendungsgebiete

In der heutigen Zeit ist das größte Anwendungsgebiet die Internetsuche, bei der Suchmaschinen wie Google oder Bing die Daten des Internets nach gewünschten Wörtern durchsuchen (Suchanfragen). Dem Suchenden wird als Ergebnis eine Liste mit relevanten Seiten geliefert, auf denen Informationen zum eingegebenen Begriff stehen. Suchergebnisse, die nicht für den User relevant sind, aber trotzdem in den SERP erscheinen, werden als False Drops bezeichnet. Zudem findet Information Retrieval Anwendung bei der Suche nach Literatur in digitalen Bibliotheken, bei Bildsuchmaschinen und bei Spamfiltern.

Schwierigkeiten

Der Nutzer kann nur sehr vage Anfragen stellen. Meist weiß er auch selber noch nicht, nach was genau er sucht. Außerdem ist das Wissen unsicher, weil zum Beispiel ein Wort unterschiedliche Bedeutungen hat oder es Synonyme gibt, die das gleiche bedeuten.

Modelle

Zur Indexierung von gefundenen Dokumenten gibt es verschiedene Modelle, die sich gegenseitig aber nicht ausschließen. Ziel ist es, viele relevante Dokumente aufzuführen und nichtrelevante wegzulassen.

Boolesches Modell

Basierend auf der boolschen Algebra werden mit Hilfe von boolschen Operatoren wie “und”, “oder”, “nicht” etc. Anfragen mit exakter Syntax gestellt. Das ist einfach und klar, Nachteil ist aber, dass keine partiellen Treffer möglich sind und keine Gewichtung von Begriffen möglich ist. Dadurch ist das Ergebnis kein Ranking, denn ein Dokument ist entweder relevant oder nicht.

Vektorraum Modell

Ein von Suchmaschinen oft verwendetes Modell ist das Vektorraum Modell, da hier sowohl Ranking als auch Ähnlichkeitssuche berücksichtigt werden. Ein Dokument wird in einen Vektor transformiert und in dieser Form kann es mit anderen bzw. mit dem der Anfrage verglichen werden. Die Vektoren können nach ihrer Ähnlichkeit zur Suchanfrage sortiert werden. Nachteil zum boolschen Modell ist, dass keine boolschen Operatoren verwendet werden können und zum Beispiel kein Ausschluss von Begriffen möglich ist. In diesem Modell werden auch die Begriffe Termfrequenz und IDF verwendet. Durch sie wird die Lage der Dokumente im Vektorraum berechnet.

Probabilistisches Modell

Dieses Modell ermittelt zu jedem Dokument einen Wahrscheinlichkeitswert, um fest zu stellen, ob es zu den relevanten Ergebnissen gehört. Hierbei ist die Anzahl der Vorkommen der Suchbegriffe im Dokument entscheidend. Das Ergebnis ist eine Liste, die nach den Wahrscheinlichkeiten geordnet ist. Dieses Modell ist nicht besser als andere und wird kaum in der Praxis angewendet.

Weblinks