Logo Chiffre Magazin - Mehr als Worte

Oh Handy, hilf

DSC05088-2






“Wie hoch ist der Kölner Dom?”

Siri überlegt zwei Sekunden, dann sagt sie: „Kölner Dom ist 157 Meter hoch.“ Ihre Stimme klingt nicht besonders natürlich, aber sie scheint sich ihrer Sache sicher zu sein. Wie kommt sie darauf? Es klingt banal, aber der Computer muss erstmal verstehen, dass mit dem Wort „hoch“ nach der Höhe gesucht wird. Weil das „hoch“ direkt hinter dem Fragewort „wie“ steht, konnte das Handy leicht erkennen, was gesucht wird. Der Gegenstand der Frage kann dann nur noch der Kölner Dom sein. Wenn die Frage analysiert ist, muss die Antwort gesucht werden. Die Technik kann Sprache nicht inhaltlich verstehen, aber sie kann Faktenwissen abfragen und nutzt dafür gängige Suchmaschinen. So sucht sie vor allem in zuverlässigen Quellen – dazu zählt auch Wikipedia – nach passenden Formulierungen wie zum Beispiel „ist hoch“. In diesem Fall wird Google auf der Seite des „Council on Tall Buildings and Urban Habitat“ fündig und gibt diese auch als Quelle an.

“Wie alt ist der Kölner Dom?”

Auf diese Frage weiß die Frauenstimme keine Antwort. Stattdessen erscheint eine Google-Suche mit der gestellten Frage. Denn auch wenn es auf den ersten Blick nicht so aussieht: Diese Frage ist viel komplizierter als die erste. Das liegt daran, dass die Antwort im Internet nicht nach dem gleichen simplen Raster zu finden ist wie bei der Frage nach der Höhe. Denn in der Regel steht bei Suchseiten wie Wikipedia nicht „Der Dom ist 766 Jahre alt“, sondern eher, in welchem Jahr der Bau begonnen und vollendet wurde. Damit Siri das korrekte Alter des Kölner Doms angeben kann, müsste sie vorher schlussfolgern, dass die Frage diesmal nicht wörtlich gemeint ist. Das System müsste also begreifen, dass es die Zeit seit dem Beginn des Baus errechnen müsste, um das korrekte Alter herauszufinden. Da der Computer aber nicht selber denken kann, kann er auch nicht errechnen, wie alt der Kölner Dom ist.

“Warum glauben wir an Gott?”

Auf diese Frage haben wir keine Antwort, jedenfalls keine, die für jeden gilt. Auch die Frauenstimme aus dem Handy ist überfordert. Sie verweist auf ein einfaches Google- Suchergebnis mit wenig hilfreichen Treffern. Warum weiß Siri die Antwort nicht? Nicht nur bei dieser philosophischen Frage, sondern bei allen Fragen nach Gründen tun sich Smartphones schwer. Zum einen sind Wörter, die sich auf das Fragewort „warum“ beziehen, im Satz oft nicht leicht zu finden. Zum anderen ist das auch kein Faktenwissen. Siris Horizont ist also begrenzt. Letztendlich ist es ein Programm, das in Algorithmen rechnet. Ein System, das wirklich wie ein Mensch werden wollte, müsste die Neugier eines Kindes mitbringen. Bei der Frage nach dem „Warum“ wird das Handy uns also auch in Zukunft erstmal nicht weiterhelfen können.

So funktionieren Sprach-Apps

Wie Sprache im Computer möglichst intelligent verarbeitet wird, ist Gegenstand der Computerlinguistik. Sprachverarbeitungs-Apps wie Siri und Google Now stammen zwar von verschiedenen Firmen, beruhen aber alle auf dem gleichen Prinzip: Bevor die Frage vom Handy überhaupt verstanden werden kann, muss der gesprochene Satz in Textform übersetzt werden. Obwohl jeder Sprecher ein bisschen anders artikuliert, ist die Spracherkennung schon sehr weit entwickelt. Anschließend nimmt das System die Frage auseinander und untersucht sie hinsichtlich Syntax und Semantik. Vor allem dieser Teil ist hochkomplex. Ist der Satz in seine Einzelteile zerlegt, beginnt die Suche nach einer Antwort. Bei komplexen Fragen scheitert diese Suche aber häufig daran, dass das System nicht in der Lage ist, Schlussfolgerungen zu ziehen.

Jede Sprache ist anders

Die Sprachverarbeitung muss sich, genau wie wir, auf jede Sprache anders einstellen. Im Englischen ist die Sprachverarbeitung schon relativ weit entwickelt. Andere Sprachen, wie Deutsch und Tschechisch, sind schwieriger zu bearbeiten, weil sie einen freieren Satzbau haben. Besonders schwierig sind Sprachen, die ganze Sätze in einem Wort ausdrücken können, wie zum Beispiel das Türkische. Auch Chinesisch und Japanisch sind eine Herausforderung, weil beispielsweise das Subjekt oft gar nicht ausgesprochen wird. Trotzdem ist die Entwicklung der Sprachverarbeitung auch in diesen Sprachen schon weit fortgeschritten.

In: Hören