reCAPTCHA


Der Begriff reCAPTCHA bezeichnet einen automatisierten Test, um Menschen anhand unterschiedlicher Interaktionsmuster und damit verbundenen Parametern von Maschinen zu unterscheiden. Der Test dient als Zugangskontrolle für Websites, Online-Dienste, Eingabeformulare, Foren oder Gästebücher. Es ist im Grunde ein klassischer Captcha-Dienst, der auf dem Turing-Test basiert: Die Eingabe soll autorisierte, menschliche Benutzer verifizieren, aber den Zugang durch Maschinen (Bots, Scripte sowie schadhafte Software) verhindern. Während bei älteren Captcha-Varianten ein oder zwei optisch verzerrte Begriffe angezeigt wurden, ist für die neueste Version lediglich ein Klick des Nutzers notwendig, da Google zur Identifizierung eines menschlichen Benutzers auch Parameter wie IP-Adressen, Cookies, Mausbewegungen sowie die Verweildauer miteinbezieht. Die aktuelle Version wird auch als NoCAPTCHA reCAPTCHA bezeichnet.

Allgemeine Informationen zum Thema

Captchas werden seit geraumer Zeit zur Spam- und Malwarebekämpfung eingesetzt, sind aber aus Usability-Sicht ein Hindernis für die Verwendung einer Website oder eines Online-Dienstes. Der Nutzer muss zunächst eine Eingabe tätigen, bevor er mit dem Medium weiter interagieren kann. Entsprechend wurde versucht, die Barrierefreiheit zu verbessern, indem immer neue Verfahren getestet wurden. Denn ein Mensch löst Captchas zuverlässiger als eine Maschine, da er über Erfahrungen und Fähigkeiten verfügt, die die Maschine nicht hat. Zum Beispiel kann er die Objekte eines Bildes sinnvoll ordnen, wenn sie thematisch zusammenhängen, oder er kann Bezüge zwischen Begriffen und Objekten herstellen. Bei den meisten Captcha-Varianten war die Barrierefreiheit stets ein Problem, zumal auch körperlich oder kognitiv eingeschränkte Benutzer eine Website leicht bedienen wollen. Das Problem ist, wie Maschinen und Bots an einem Zugang zum Medium gehindert werden können, ohne die Barrierefreiheit und die Usability zu vernachlässigen.

Funktionsweise

Die funktionale Basis des Captcha-Verfahrens (Completely Automated Public Turing test to tell Computers and Humans Apart) bildet der Turing Test.[1] Drei Kommunikationsteilnehmer (A,B und C) führen einen Test durch: Eine Person (C) versucht zu entscheiden, ob es sich bei den beiden Teilnehmern um einen Menschen (A) oder einen Computer (B) handelt. Sowohl der Mensch als auch der Computer wollen die Person davon überzeugen, dass sie menschlich sind und somit über Denkvermögen oder Bewusstsein verfügen. Wenn sie dies schaffen, gilt der Test als bestanden.[2] Die Funktionsweise von Captchas beruht auf diesem Test, wird aber in einigen Punkten verändert: Der Fragesteller ist keine Person, sondern ein Computer, der einen Benutzer aufgrund der getätigten Eingaben als Menschen identifizieren soll. Die Begriffe Challenge-Response-Test (deutsch: Aufforderunge-Antwort-Test) oder Human Interaction Proof (deutsch: menschlicher Interaktionsbeweis; kurz: HIP) werden deshalb oft synonym für derartige Tests verwendet.

ReCAPTCHA

Laut einer Studie der Carnegie Mellon Universität, die das reCAPTCHA-Projekt initiierte, wurden im Jahr 2000 täglich Hunderttausende Stunden für das Lösen von Captchas aufgebracht.[3] Diese Eingaben nutzt das Projekt, das 2009 von Google übernommen wurde, als Input für maschinelles Lernen. Mithilfe der Daten, die die Crowd eingibt, wird die Digitalisierung unterschiedlicher Medien unterstützt. Eines der angezeigten Wörter im Captcha-Eingabefeld soll der Nutzer vervollständigen, weil dieses Wort bisher nicht digitalisiert werden konnte.[4] Die Eingaben aller Benutzer werden anschließend für Google Books und Google News verwendet, um das Scannen von Büchern, Magazinen und Zeitschriften zu erleichtern. Das Scannen wird als Optical Character Recognition (deutsch: Optische Zeichenerkennung; kurz: OCR) bezeichnet. Das Unternehmen nutzt die Technologie auch bei Google Street View und Google Maps, etwa zur Erfassung von Orten mit Fotos von Straßenschildern. Die Idee, Eingaben als Crowdsourcing oder Crowdtesting zu nutzen, wird nach wie vor verfolgt. Allerdings hat sich die Art der Eingaben verändert und der Computer ist durch das maschinelle Lernen „klüger“ geworden.

NoCAPTCHA reCAPTCHA

Das Projekt NoCAPTCHA reCAPTCHA ist die Weiterentwicklung der bisherigen Captcha-Verfahren. Nutzer müssen keine Begriffe mehr eingeben, stattdessen bestätigen sie, dass sie ein Mensch sind, indem sie auf das Feld „Ich bin kein Roboter“ klicken. Das System, das wie eine künstliche Intelligenz arbeitet, prüft bei jedem Aufruf eines Eingabeformulars oder Online-Dienstes weitere Parameter des Benutzers und gleicht diese mit den bereits gesammelten Daten ab. Deuten die Daten auf eine Maschine hin, wird ein klassischer Test angeboten und der Nutzer muss beispielsweise Begriffe eingeben oder Objekte auf Fotos identifizieren. Jede dieser Interaktionen hilft dem NoCAPTCHA reCAPTCHA Projekt dabei, Menschen von Maschinen zu unterscheiden und weitere Daten zu digitalisieren.[5]

Das Surfverhalten, die Surfhistorie, das Endgerät, verschiedene Eigenschaften der Netzwerkkonfiguration sowie einige geheime Parameter dienen dem System zur Unterscheidung, denn Bots oder Maschinen würden diese Parameter laut Google nicht simulieren können.[6] Die KPIs aus der Webanalyse werden dazu benutzt, einen Fingerabdruck zu erstellen und den Benutzer dadurch als Menschen zu identifizieren. Für den menschlichen Benutzer ist die Bedienung einfach, während Bots und Maschinen ausgesperrt werden. Die Barrierefreiheit wird dadurch gewährleistet, dass das System für bestimmte Nutzer eine Audioversion des Captcha-Verfahrens vorsieht.[7]

Bedeutung für die Programmierung

Zwar ist das aktuelle Captcha-Verfahren relativ einfach für normale Benutzer, aber langfristig ist dies keine Lösung für das Problem von Spam und Malware. Denn auch auf dieser Seite können Maschinen zum Lernen verwendet werden. Spambots könnten zum Beispiel angelernt werden, damit sie bestimmte Fragestellungen und Probleme zuverlässiger lösen als bisher – und sich als Menschen ausgeben. Kürzlich wurde die Audioversion für das Captcha-Verfahren gehackt und Entwickler konnten dem System vortäuschen, dass es sich um Menschen handelte.[8] Google reagiert unmittelbar und veränderte den Quellcode des Systems, sodass diese Schwachstelle behoben werden konnte. Dieses Beispiel zeigt, dass die Methoden zur Spambekämpfung stets weiterentwickelt werden müssen, wenn sie effektiv sein sollen. Zusätzlich zeigt es, dass diese Methoden nicht immer mit den Aspekten Barrierefreiheit und Usability vereinbar sind – auch wenn dies der Königsweg ist.[9]

Einzelnachweise

  1. Ich bin kein Roboter, Google! zeit.de. Abgerufen am 16.08.2016
  2. Turing test whatis.techtarget.com. Abgerufen am 16.08.2016
  3. Telling Humans and Computers Apart (Automatically) or How Lazy Cryptographers do AI cs.cmu.edu. Abgerufen am 16.08.2016
  4. Was ist reCAPTCHA und wie funktionierts gefahrgutblog.de. Abgerufen am 16.08.2016
  5. Are you a robot? Introducing “No CAPTCHA reCAPTCHA” security.googleblog.com. Abgerufen am 16.08.2016
  6. Google will lästige Captcha-Abfragen überflüssig machen zdnet.de. Abgerufen am 16.08.2016
  7. Google Can Now Tell You’re Not a Robot With Just One Click wired.com. Abgerufen am 16.08.2016
  8. Googles Recaptcha beinahe geknackt heise.de. Abgerufen am 16.08.2016
  9. Captcha - Was ist das und wobei soll es helfen? webmaster-eye.de. Abgerufen am 16.08.2016

Weblinks