Darum funktioniert Google Translate nicht perfekt

Darum können Computer nur schlecht übersetzen

Veröffentlicht am 16.12.2014 | Lesedauer: 6 Minuten

Von Julika Meinert

Aus „Übersetze mich nicht“ macht das Übersetzungsprogramm Google Translate „Do not sit down“

Quelle: https://translate.google.de/

Computer können ja bekanntlich fast alles – doch beim Übersetzen stoßen sie schnell an ihre Grenzen. Aber selbst das will Google ihnen nun beibringen. Sprachwissenschaftler bleiben skeptisch.

Die Grenzen meiner Sprache bedeuten die Grenzen meiner Welt“, schrieb der Philosoph Ludwig Wittgenstein. Im Internet erscheinen Grenzen als Konstrukte von gestern – alles ist abrufbar, überall, zu jeder Zeit.

Das Unternehmen, das die Weiten des Internets ordnet und auffindbar macht, ist Google. Nun will es auch die Grenzen der Sprache auflösen: mit dem Übersetzungsprogramm Google Translate.

Doch dessen Fähigkeiten lassen zu wünschen übrig. „Übersetze mich nicht“ wird zu „Do not sit down“, der Adventsklassiker „Macht hoch die Tür“ zu „Power up the door“.

Computer können uns den Weg durch die Wildnis weisen, täuschend echt klingende Aufsätze schreiben und unsere Freunde auf Fotos erkennen. Trotzdem hapert es mit den Übersetzungen. Entwickler versuchen nun, das zu ändern. Einige glauben, die digitalen Dolmetscher könnten sogar so gut werden wie menschliche.

„Übersetzungsprogramme funktionieren deshalb nicht einwandfrei, weil natürliche Sprache sehr komplex ist“, sagt Uta Seewald-Heeg, Professorin für Computerlinguistik an der Hochschule Anhalt. „Das Besondere an der natürlichen Sprache ist, dass wir unentwegt neue Sätze bilden können und auch solche, die vorher noch nie jemand ausgesprochen hat.“

Um die Systeme offen zu halten für die unendlichen Weiten der Sprache, müssen auch die Programme unbeschränkt aus den vorhandenen Teilen kombinieren können.

Statistische Systeme oder regelbasierte Systeme

Es gibt zwei grundlegend verschiedene Ansätze in der maschinellen Übersetzung. Statistische Systeme suchen auf der Basis vorhandener Übersetzungen nach entsprechenden Textpassagen in einer anderen Sprache und geben diese aus. Regelbasierte Systeme analysieren einen Text und übersetzen ihn nach programmierten Sprachregeln.

Bereits vor dem Zweiten Weltkrieg entwickelten Wissenschaftler mit Techniken aus der Kryptografie Ansätze für maschinelle Übersetzungssysteme. In den 1960er-Jahren begannen Linguisten dann, Regeln zu schreiben, nach denen Sprachen aufgebaut sind und nach denen sie sich übersetzen lassen.

Solche regelbasierten Systeme werden heute beispielsweise in der technischen Dokumentation, also etwa für Montageanleitungen und Online-Hilfetexte, eingesetzt, oder für Rückmeldungen von Reisenden auf Bewertungsseiten.

Eine davon nutzt die Programme von Igor Jourist, Geschäftsführer der Promt GmbH. „Es ist sehr wichtig, dass man für den Bereich, aus dem man einen Text übersetzen möchte, ein spezielles Vokabular hat“, sagt er. So habe man den Programmen Fachvokabular aus der Reisebranche beigebracht. Zumindest dafür sind Menschen notwendig.

„Die Algorithmen suchen aus einer Reihe von Texten unbekannte, aber häufige Begriffe heraus“, sagt Jourist. „Und dann sagt ein Mitarbeiter der Maschine, was das für Wörter sind: ein Verb, ein Substantiv oder ein Name, der nicht übersetzt werden soll.“ Das Wichtigste aber sei die Entwicklung von Algorithmen nach der Grammatik einer Sprache.

Unsinns-Übersetzung auf Reiseportal

Es ist einfach auf dem von Jourist belieferten Reise-Portal eine Unsinns-Übersetzung zu finden. „Übernachten Sie nicht in einem Studentenwohnheim wohnen, sollten Sie sich im Klaren sein schwierige pricing, beobachten Sie Ihre Wertsachen“, heißt es über ein Resort. Was läuft falsch – trotz programmierter Grammatik, speziellen Wörterbüchern und ausgefeilten Algorithmen?

„Mit Regeln kann man Sprache sehr genau und sehr gut beschreiben“, sagt Uta Seewald-Heeg, „aber es sind sehr viele Regeln und einige davon beeinflussen sich gegenseitig.“ Das Grundproblem ist die Komplexität der Sprache.

Im Deutschen beispielsweise entscheidet sich am Ende eines Wortes, ob es Einzahl oder Mehrzahl ist, in welcher Zeit ein Verb steht oder welchen Kasus ein Wort hat. Will man einem Programm also beibringen, was die Endung „-en“ bedeutet, wird es schwierig: In „Pflaumen“ zeigt sie die Mehrzahl an, in „laufen“ den Infinitiv, in „Regen“ ist sie rein zufällig.

Um richtig zu arbeiten, müssen die Übersetzungsprogramme zunächst erkennen, zu welcher Wortart ein Begriff gehört. Doch im Englischen kann fast jedes Nomen als Verb eingesetzt werden – „light“ beispielsweise kann zudem noch ein Adjektiv sein, wie in der Cola.

Die Grammatik bestimmt die Übersetzung – ist sie nicht eindeutig, kann kein Programm eindeutig übersetzen. Komplexere Grammatik erfordert mehr Regeln, bringt aber auch mehr Klarheit.

Der Satz „Der Mann sah das Mädchen mit dem Fernglas“ zeigt im Deutschen nicht an, ob das Fernglas eine Sehhilfe des Mannes oder ein Accessoire des Mädchens ist. In anderen Sprachen müsste dies jedoch eindeutig sein, um es richtig übersetzen zu können.

Ohne Kontext keine gute Übersetzung

Eine Lösung für die Probleme: Kontext. Der menschliche Leser könnte wohl aus dem Zusammenhang folgern, was gemeint ist. „Eine richtig gute Übersetzung funktioniert nicht ohne Kontext“, sagt Macduff Hughes, Leiter Entwicklung von Google Translate.

Das bezeichnet er selbst als eines der entscheidenden Probleme seines Programms. „Google Translate übersetzt jeweils einen Satz zur Zeit. Aber vielleicht stehen im Satz danach wichtige Informationen, die für die Übersetzung entscheidend sind.“

Ritzenflitzer, Tussitoaster, Heuchlerbesen & Co

1 von 25

Sie verstehen bei Wörtern wie "Eierkocher", "Heuchlerbesen" oder "Chefmatratze" nur Bahnhof? Kein Problem! DIE WELT hat für Sie das ABC der Jugendsprache zusammengestellt. Sogar mi...t englischer Übersetzung. (Quelle: "Jugendsprache Unplugged", Langenscheidt)

Quelle: picture-alliance/chromorange

2 von 25

A wie Assisticker: Tätowierung (engl.: tat).

Quelle: picture-alliance / Bildagentur-o/www.bildagentur-online.com

3 von 25

B wie Baumkuschler: umweltbewusster Mensch (engl.: treehugger).

Quelle: picture alliance / dpa/dpa

4 von 25

C wie Chefmatratze: Sekretärin (engl.: sexcretary).

Quelle: picture-alliance / Denkou Images/Denkou Images

5 von 25

D wie Deoroller: Glatzkopf (engl.: cue ball).

Quelle: picture-alliance / Denkou Images/Denkou Images

6 von 25

E wie Eierkocher: Whirlpool (engl.: jacuzzi).

Quelle: picture-alliance/ gms/Gütegemeinschaft_Whirlwannen

7 von 25

F wie Fratzengeballer: Schlägerei (engl.: rumble).

Quelle: picture-alliance / Lehtikuva/Lehtikuva

8 von 25

G wie gehasselhofft: extrem betrunken (engl.: sloshed).

Quelle: picture-alliance/ dpa/dpa

9 von 25

H wie Heuchlerbesen: Blumenstrauß (engl.: guilt flowers).

Quelle: picture-alliance/chromorange

10 von 25

I wie Iltis auf der Zunge haben: nach einer durchzechten Nacht pelziges Gefühl auf der Zunge haben (engl.: to want to shave one’s teeth).

Quelle: picture-alliance/chromorange

11 von 25

J wie Jesus-Chips: Hostien (engl.: jeez-its).

Quelle: picture-alliance / Godong/Godong

12 von 25

K wie Ketchupwoche: Menstruation (engl.: red wings).

Quelle: picture-alliance / beyond/Lea Ro/beyond/Lea Roth

13 von 25

L wie Lecklappen: Zunge (engl.: tongue).

Quelle: picture-alliance / maxppp/picture-alliance / 6PA

14 von 25

M wie macgyvern: improvisieren (engl.: to macgyver).

Quelle: picture-alliance / beyond/beyond/beyond/beyond foto

15 von 25

N wie Nahkampfsocke: Kondom (engl.: wrapper).

Quelle: picture-alliance/chromorange

16 von 25

O wie am Ohrfeigenbaum rütteln: jemanden provozieren (engl.: to be cruisin’ for a bruisin’).

Quelle: picture-alliance/chromorange

17 von 25

P wie Parmesanregen: Schuppen (engl.: flakes, snow).

Quelle: picture-alliance/chromorange

18 von 25

Q wie quarzen: rauchen (engl.: to blaze).

Quelle: picture alliance / abaca/Chameleons Eye

19 von 25

R wie Ritzenflitzer: Stringtanga (engl.: butt floss).

Quelle: picture-alliance/chromorange

20 von 25

S wie Steuerberater: Beifahrer im Auto (engl.: backseat driver).

Quelle: picture-alliance / Eibner-Presse/picture alliance

21 von 25

T wie Tussitoaster: Solarium (engl.: cancer bed).

Quelle: picture-alliance / dpa/dpaweb/dpa

22 von 25

U wie unterhopft sein: Lust auf Bier haben (engl.: to feel like a beer).

Quelle: picture-alliance/ dpa/dpa-Zentralbild

23 von 25

V wie verhaltensoriginell: verrückt, seltsam (engl.: messed up).

Quelle: picture-alliance/ dpa/dpa

24 von 25

W wie Wanderfritteuse: Person mit sehr fettigen Haaren (engl.: greaseball).

Quelle: picture-alliance/ dpa/Lehtikuva

25 von 25

Z wie Zwiebacksäge: Moped (engl.: moped).

Quelle: picture-alliance / Image Source/www.imagesource.com

Google nutzt für seine Übersetzungen ein statistisches System, das auf großen Mengen von Daten basiert. „Wir suchen Websites, die es in mehreren Sprachen gibt, und legen diese Übersetzungen unserem Programm zugrunde. Das können Hilfeseiten von Software-Anbietern sein, aber auch Reise-Websites, Online-Shops oder Nachrichten-Seiten“, sagt Hughes.

Auf der Basis dieser zweisprachigen Text-Sammlungen errechnet eine Software die Wahrscheinlichkeiten, dass Sätze, Wortgruppen oder Wörter einander entsprechen. „Die Übersetzung, die herauskommt, ist die mit der höchsten Wahrscheinlichkeit dafür, dass ein Wort oder eine Passage eine Übersetzung des Ausgangstextes ist. Je mehr Daten vorhanden sind, desto besser werden die Ergebnisse“, sagt Uta Seewald-Heeg.

Programm lernt aus deutschsprachigen Internetseiten

Mehrere zehn Millionen Wörter braucht Google Translate als Basis für eine Sprache. „Das Programm geht den Text durch, der übersetzt werden soll: Wort für Wort oder Sequenz für Sequenz – und dann werden die einzelnen Übersetzungsteile aneinandergeheftet, sodass sie wie ein guter Satz in der Zielsprache aussehen“, sagt Hughes. Wie ein deutscher Satz aufgebaut ist, lernt das Programm aus der Masse deutschsprachiger Internetseiten. „Im Grunde ist alles Statistik“, meint Hughes.

Der Entwickler weiß, dass Kontext, Satzbau oder unregelmäßige Verben dem Programm Schwierigkeiten bereiten, und dass nicht immer perfekte Übersetzungen herauskommen. „Es gibt viele Situationen, in denen die Übersetzung nicht perfekt sein muss, aber trotzdem hilfreich sein kann“, sagt er.

Am häufigsten werde Google Translate genutzt, um Webseiten in anderen Sprachen zu lesen. „Wenn die Übersetzung gut genug ist, um einen Text grob zu verstehen, reicht das in vielen Fällen aus.“

Vielleicht ist der Anspruch falsch, sich von einem Übersetzungsprogramm stilistisch gute und grammatisch korrekte Sprache zu erhoffen. „Sowohl die regelbasierten als auch die statistischen Systeme geraten an ihre Grenzen“, sagt Uta Seewald-Heeg.

Die Entwickler setzten daher verstärkt auf eine Kombination aus beiden. In solchen Hybrid-Systemen werden die regelbasierten Programme um statistische Berechnungen ergänzt und die statistischen Programme lernen sprachliche Regeln.

Computer sollen so gut wie Menschen werden

Macduff Hughes hat große Visionen für Google Translate: „Wir bemühen uns sehr, die Qualität der Übersetzung zu verbessern“, sagt er. „Und wir sind erst fertig, wenn das System so gut ist wie ein professioneller, menschlicher Übersetzer.“ Das bedeutet, dem Computer zuzutrauen, was nur ein Mensch kann: Nuancen, Zwischentöne, Anspielungen, Wortspiele und Poesie hervorzubringen.

Das Wesentliche der Dichtung sei nicht Mitteilung oder Aussage, schreibt Walter Benjamin in „Die Aufgabe des Übersetzers“. Sondern das, was man das Unfassbare, Geheimnisvolle, Dichterische nennt.

Computer können Worte übersetzen. Kontext aber können sie nicht erfassen. Bedeutung zu schaffen bleibt vorerst dem Menschen vorbehalten.

Darum können Computer nur schlecht übersetzen

Statistische Systeme oder regelbasierte Systeme

Unsinns-Übersetzung auf Reiseportal

Ohne Kontext keine gute Übersetzung

Ritzenflitzer, Tussitoaster, Heuchlerbesen & Co

Programm lernt aus deutschsprachigen Internetseiten

Computer sollen so gut wie Menschen werden

Wissenschaft Linguistik
Warum Deutsch hart klingt – und Arabisch forsch

Wissenschaft Linguistik
Wie sexistisch ist die deutsche Sprache?

Darum funktioniert Google Translate nicht perfekt

Statistische Systeme oder regelbasierte Systeme

Unsinns-Übersetzung auf Reiseportal

Ohne Kontext keine gute Übersetzung

Ritzenflitzer, Tussitoaster, Heuchlerbesen & Co

Programm lernt aus deutschsprachigen Internetseiten

Computer sollen so gut wie Menschen werden

Wissenschaft Linguistik Warum Deutsch hart klingt – und Arabisch forsch

Wissenschaft Linguistik Wie sexistisch ist die deutsche Sprache?

Themen

Wissenschaft Linguistik
Warum Deutsch hart klingt – und Arabisch forsch

Wissenschaft Linguistik
Wie sexistisch ist die deutsche Sprache?