Natural Language Processing


Natural Language Processing (oder auch: Natural Language Programming, kurz: NLP dt. maschinelle Verarbeitung natürlicher Sprache) ist eine Technologie, die zum Ziel hat, dass Computer und Menschen auf gleicher Augenhöhe miteinander kommunizieren können. NLP verknüpft Erkenntnisse aus der Linguistik mit neuesten Methoden der Computerwissenschaft und der Künstlichen Intelligenz.

Damit Natural Language Processing funktioniert, muss zunächst an der Spracherkennung gearbeitet werden. NLP wird als zukunftsträchtige Technologie im Bereich HCI für die Steuerung von Geräten oder Webanwendungen gesehen. So basierte zum Beispiel die Arbeit von Chatbots oder digitalen Sprachassistenten auf diesem Prinzip.

Hintergrund

Die Entwicklung von NLP reicht bis weit in die 1950er-Jahre zurück, als der Wissenschaftler Alan Turing einen Aufsatz mit dem Titel „Computing Machinery and Intelligence“ veröffentlichte. Darin stellte er eine Methode dar, um künstliche Intelligenz zu messen. Bis heute gibt es den sogenannten „Turing Test“.

Schon 1954 war es Forschern bereits gelungen, sechzig Sätze auf Russisch mit Hilfe einer Maschine ins Englische zu übersetzen. Euphorisiert von diesem Start dachten viele Computerforscher, dass die maschinelle Übersetzung nur noch eine Frage der Zeit war. Doch es musste noch bis in 1980er-Jahren dauern, bis erste Systeme für die statistisch-basierte maschinelle Übersetzungen weiterentwickelt wurden. In der Zwischenzeit wurden einige Ansätze gefunden, um Informationen aus der „echten“ Welt in Computersprache zu übersetzen.

Ein großer evolutionärer Schritt wurde in den späten 1980er-Jahren geschaffen. Denn damals wurde Machine Learning populär. Zusammen mit der immer größer werdenden Rechenleistung von Computern konnten nun Algorithmen für das NLP genutzt werden. Einer der Vorreiter auf diesem Gebiet war und ist bis heute der Linguist Noam Chomsky. Auch das Softwareunternehmen IBM sorgte für die zunehmende Weiterentwicklung des Natural Language Processing.

Heute können NLP-basierte Computerprogramme nicht mehr nur auf manuell gesammelte Datensätze zurückgreifen, sondern sie sind auch in der Lage eigenständig Textkorpora wie Webseiten oder gesprochene Sprache direkt zu analysieren.

NaturalLanguageProcessing de en.png


Voraussetzungen

NLP basiert auf dem Grundgedanken, dass jegliche Form von Sprache, gesprochen oder geschrieben, zunächst erkannt werden muss. Sprache ist jedoch ein sehr komplexes System von Zeichen. Wichtig ist dabei nicht nur das einzelne Wort, sondern sein Zusammenhang mit anderen Wörtern, ganzen Sätzen oder Sachverhalten.

Was Menschen natürlicherweise von Geburt an lernen, müssen Computer mit Hilfe von Algorithmen erreichen. Während der Mensch auf seine Lebenserfahrung zurückgreifen kann, muss der Computer auf künstlich erzeugte Erfahrungen zurückgreifen können. Die Herausforderung für die maschinelle Verarbeitung natürlicher Sprache besteht folglich weniger im Produzieren von Sprache, sondern darin, sie zu verstehen.

Funktionsweise

Modernes NLP basiert auf Algorithmen, die wiederum auf statistischem Maschine Learning aufbauen. Das Besondere daran ist, dass Computer auf diese Weise nicht nur aufgrund vorher gelernter Dilemmata lernen können, sondern eigenständig Probleme erkennen und neue Problemfelder auf der Basis großer Dokumentenkorpora lösen können. Computer lernen somit nicht, für jedes Problem eine Lösung zu finden, sondern Sie lernen allgemeine Muster, mit deren Hilfe sie individuelle Fragestellungen bearbeiten. Damit wird NLP zu einer Vorstufe für Künstliche Intelligenz.

Beispiel

Der große Vorteil an dieser Methode besteht darin, dass die Computer immer besser werden, je mehr Daten sie erhalten. Ein gutes Beispiel hierfür ist die Übersetzungsfunktion von Google. Zu Beginn wurde das Projekt noch vielfach belächelt. Heute ist das Programm in der Lage, viele verschiedene Texte und selbst das gesprochene Wort einigermaßen flüssig zu übersetzen.

Auch das von Google etablierte “Rank Brain” nutzt die Methode des Natural Language Processing, um auch noch nie zuvor gestellte Suchanfragen die passenden Ergebnisse auszuliefern. Dabei wird das “Interpretieren” von Eingaben durch künstliche Intelligenz ergänzt.

Computerprogramme, die auf NLP basieren, müssen folgende Aufgaben erfüllen:

  • Stemming
  • Vereinfachen von Text
  • Text in gesprochene Sprache umwandeln
  • Gesprochene Sprache in Text umwandeln
  • Suchen in natürlicher Sprache verstehen
  • Erweiterte Fragen und Folgefragen erkennen
  • Plausibilität von Antworten prüfen

Bereiche

NLP streift viele Einzelbereiche. Dazu gehören:

  • Information Retrieval : bei der allgemeinen Verarbeitung von Informationen
  • Information Extraction: bei semantischen Fragen
  • Speech Processing: Spracherkennung oder Text-zu-Sprache-Funktionen

Aufgaben

Die Spracherkennung als zentrales Aufgabengebiet beim NLP hängt von vielen verschiedenen Faktoren ab. Hier werden die wichtigsten kurz zusammengefasst.

  • automatisierte Zusammenfassung: Die Programme müssen große Texte automatisiert auf das Wesentliche reduzieren können.
  • Wortbeziehungen innerhalb von Sätzen: Hier ist von NLP gefordert, dass es erkennt, welche Satzbestandteile zueinander in Beziehung stehen.

Beispiel: Ich setzte mich im Auto auf den Rücksitz. In diesem Fall muss das Programm erkennen, dass der Rücksitz zum Auto gehört.

  • Diskursanalyse: NLP-Software muss in der Lage sein, das Register eines Textes (gehoben, umgangssprachlich) zu erkennen. Ebenso muss das Programm erkennen, um welche Textsorte es sich handelt (Einkaufszettel, Rechnung, Aufforderung).
  • maschinelle Übersetzung: Auf NLP basierte Programme müssen die menschliche Sprache in eine andere menschliche Sprache übersetzen können und dabei Grammatik, Semantik und andere linguistische Teilbereiche beherrschen.
  • morphologische Segmentierung: Hierunter wird das Zerlegen eines Wortes in seine Einzelbestandteile gefasst.
  • NER (Named Entity Recognition) : Ein NLP-Programm muss erkennen, ob ein Text Eigennamen für Orte, Personen oder Organisationen enthält und es muss diese auch zuordnen können. Für die Textausgabe muss das Programm demnach auch bei westlichen Sprachen wissen, ob die betreffenden Wörter großgeschrieben werden.
  • Umwandlung in menschliche Sprache: Digital hinterlegte Wörter werden in menschliche Sprache übertragen.
  • Verstehen menschlicher Sprache
  • Optical character recognition (OCR) : Dabei handelt es sich um eine Bilderkennung, die Bilder in Text umwandeln kann, wie es heute schon einige Scanner können.
  • Erkennung von Gefühlen
  • Erkennen von gesprochener Sprache
  • Erkennen von Stilformen wie Ironie
  • Erkennen von Wortbedeutungen: Klanglich kann „buchen“ sowohl die Aktion eines Ticketkaufs beinhalten als auch die Mehrzahl des Baumes „Buche“.

Anwendungsgebiete und Ausblick

NLP ist ein wichtiger Baustein bei der Entwicklung von Künstlicher Intelligenz. Denn die Sprache spielt eine zentrale Rolle bei der Schaffung von selbständig denkenden Computern. Der Ansatz von Natural Language Processing bildete somit die wichtige Schnittstelle zwischen menschlichem Wesen und Computer.

Heute kommen diese Techniken bei der Übersetzung von Dokumenten, bei der Bearbeitung von Dokumenten, aber auch bei Call-Centern zum Einsatz. Es gibt mittlerweile auch Programme, die Texte selbständig erstellen können.

Dienste wie Skype sollen in Kürze bereits in der Lage sein. Telefongespräche live zu übersetzen.[1] Schon heute können Nutzer sich mit Chatbots ausgewählter Anbieter auf Skype “unterhalten”, um Tickets zu buchen oder um einfache Abfragen zu starten. Auch Google möchte aus seinem Translator einen Live-Übersetzer machen.[2] Zugleich wird die Technik bei zahlreichen digitalen Assistenten der großen Internetfirmen, zum Beispiel bei Amazon Echo, Windows Cortana oder Siri von Apple verwendet.

Einzelnachweise

Weblinks