Maschinelle Übersetzung
Qualität maschineller Übersetzungen: Bewerten oder Prognostizieren?
Aufgrund des rasanten Fortschritts im letzten Jahrzehnt ist maschinelle Übersetzung (Machine Translation oder MT) inzwischen für viele Unternehmen zu einem wesentlichen Bestandteil ihrer Übersetzungsarbeit geworden.
Um den größtmöglichen Nutzen aus maschineller Übersetzung zu ziehen, stellt sich allerdings sowohl für neue als auch erfahrene Anwender*innen die Frage, welche MT-Engine sie verwenden sollen.
In diesem Artikel beschäftigen wir uns mit der Bewertung der Qualität von MT-Engines und der Auswahl der optimalen Engine für dein nächstes Übersetzungsprojekt.
Die richtige Engine für dein Übersetzungsprojekt
Ganz gleich, ob du dich zum ersten Mal mit maschineller Übersetzung beschäftigst oder diese bereits in deinen Projekten einsetzt: Der wichtigste Faktor ist die Auswahl der passenden MT-Engine.
Mittlerweile gibt es eine Vielzahl von MT-Engines verschiedenster Art. Auch verändert sich die MT-Landschaft ständig – es werden immer wieder neue Engines vorgestellt und etablierte Lösungen verbessert. Dementsprechend kompliziert und frustrierend kann sich die Auswahl der optimalen Engine für ein Projekt gestalten.
Dabei hilft es, das große Ganze im Blick zu behalten. Die zentralen Vorteile bei der Verwendung von MT sind die Zeit- und Kosteneinsparungen: Übersetzungen stehen praktisch in Echtzeit zur Verfügung und die Kosten sind im Vergleich zur menschlichen Übersetzung verschwindend gering. Dies gilt grundsätzlich für alle heute verfügbaren MT-Engines.
Es bleibt damit nur ein kritischer Aspekt: die Qualität der maschinellen Übersetzung. Dies ist wahrscheinlich die wichtigste Variable, die beim Aufbau eines MT-Workflows berücksichtigt werden muss, da schlechte Resultate die Zeit- und Kostengewinne wieder zunichte machen können.
Zur Qualität maschinell erstellter Übersetzungen
Jüngste Entwicklungen im Bereich der maschinellen Übersetzung haben zu einer deutlich höheren Basisqualität der resultierenden Texte geführt. Hier ist unter anderem der nahezu vollständige Wechsel von statistischen maschinellen Übersetzungsverfahren zur neuronalen maschinellen Übersetzung zu nennen.
Unsere eigenen internen Daten deuten darauf hin, dass sich die Wahrscheinlichkeit, ein nahezu perfektes Segment zu erhalten, das allenfalls noch minimal nachbearbeitet werden muss, seit dem Jahr 2017 fast verdoppelt hat. Die heutzutage am häufigsten verwendeten MT-Engines können mit hoher Wahrscheinlichkeit passable Übersetzungen liefern, die zwar nicht immer die stilistischen Nuancen, wohl aber die wesentlichen Inhalte des Originaltextes vermitteln.
Für wie belastbar man die Qualität einer maschinellen Übersetzung hält, hängt vor allem vom Umfang und der Relevanz der konkreten Aufgabenstellung ab. Eine Person die hofft, vor der nächsten Stunde des Sprachkurses noch schnell ein paar Zeilen der letzten Hausaufgabe übersetzt zu bekommen (also wirklich!), wird nicht besonders wählerisch sein—alle heute relevanten MT-Engines werden hier wahrscheinlich ein passables Ergebnis liefern. Wenn es zu Fehlern kommt, wird dies eher an Ambivalenzen im Quelltext als einer schlechten MT-Engine liegen.
Wer sich hingegen das persönliche Lebensmotto ins Französische oder Chinesische übersetzen lassen will, bevor es als Tattoo auf dem Körper verewigt wird, wird hoffentlich so klug sein, eine maschinelle Übersetzung dieses Mottos erst noch einmal von einer muttersprachlichen Person korrigieren zu lassen. Im Internet gibt es zahllose Bildbeweise dafür, was passieren kann, wenn man sich maschinell übersetzte Texte ungeprüft auf die Haut stechen lässt.
Qualität und Größenordnung korrelieren. Für ein Großunternehmen ist eine „passable“ Übersetzung wahrscheinlich nicht gut genug. Bei größeren Übersetzungsprojekten nimmt natürlich auch die Zahl der Fehler zu, und auch das Risiko katastrophaler Fehlübersetzungen steigt proportional an, sodass letztlich eine umfassende (und dementsprechend teure) Überprüfung und Nachbearbeitung unvermeidbar wird. Aus Pfennigen werden große Beträge, und Projekte nehmen mehr Zeit in Anspruch.
Aber mit der Größenordnung von Übersetzungsprojekten wächst auch die Einsicht in die Qualität der Ergebnisse. Je größer das Übersetzungsvolumen, umso mehr werden Unterschiede zwischen den Resultaten aus verschiedenen MT-Engines erkennbar, die bei kleinen Stichproben nicht zu erkennen gewesen wären. Und diese kleinen Unterschiede summieren sich bei größeren Projekten natürlich.
Einige MT-Engines liefern bei bestimmten Textsorten und Sprachpaaren bessere Ergebnisse und durch die Auswahl der richtigen Engine kann eine höhere Qualität und entsprechende Einsparungen erzielt werden. Kurz: Die Auswahl der am besten geeigneten MT-Engine ist von großer Bedeutung.
Arten von MT-Engines
Bei der Auswahl der richtigen MT-Engine für ein Projekt stehen grundsätzlich zwei Arten von MT-Engines zur Auswahl: Zum einen die generischen Engines wie Amazon Translate, Google Translate und Microsoft Translator auf der einen, und trainierbare Engines auf der anderen Seite. Beide Engine-Typen basieren auf Auswertungen von bereits existierenden Übersetzungen.
Bei trainierbaren MT-Engines stellt das anwendende Unternehmen eigene Trainingsdaten zur Verfügung, um die Qualität der Übersetzungsergebnisse zu steigern. Vorliegende Übersetzungen in guter Qualität dienen der Engine als „Richtschnur“, sodass diese mit höherer Wahrscheinlichkeit Übersetzungen in der gewünschten Qualität produziert.
So eignen sich zum Beispiel Inhalte aus den Bereichen Tourismus und Gastronomie besonders gut zum Training entsprechender „lernfähiger“ Engines. Angebotsseiten und Nutzerrezensionen für Hotels sind sich oft sehr ähnlich, und allein aufgrund der Menge der verfügbaren Inhalte ist das Training von MT-Engines möglich und wünschenswert.
Die Spezialisierung aufgrund gegebener Inhalte ist der größte Vorteil trainierbarer Engines, gleichzeitig aber auch ihr größter Nachteil. Durch die Fokussierung auf bestimmte Arten von Inhalten ist außerhalb des betreffenden Themengebietes mit schlechteren Ergebnissen zu rechnen. Eine auf Hotelbeschreibungen und Bewertungen trainierte Engine wird wahrscheinlich bei der Übersetzung von Nachrichten deutlich schlechtere Ergebnisse liefern.
Die Einrichtung und Wartung solch trainierbarer MT-Engines ist in der Regel aufwändiger und teurer. Sie eignen sich gut für Unternehmen, die große Mengen stilistisch und inhaltlich ähnlicher Texte verarbeiten und dadurch die resultierenden, etwas höheren Kosten rechtfertigen können.
Generische Engines stellen für die meisten Anwender*innen die bessere Wahl dar, da sie schneller konfiguriert werden können und die Kosten deutlich niedriger sind als bei den trainierbaren Engines. Wenn Qualität das wichtigste Kriterium darstellt, fällt die Entscheidung schwerer.
Bewerten oder Prognostizieren?
Bei der Auswahl der richtigen MT-Engine sollte zuerst die Qualität der Resultate der in Frage kommenden Alternativen evaluiert werden, um entscheiden zu können, ob sie ihr Geld wert sind. Viele MT-Anwender*innen bewerten zunächst verschiedene Engines in umfassenden Tests, bevor sie sich für eine Engine entscheiden. Die Übersetzungsbranche hat eine Reihe von Qualitätsmetriken eingeführt, um diesen Prozess zu standardisieren.
Dabei wird grundsätzlich unterschieden zwischen Qualitätsbewertung und Qualitätsprognose.
Bei der Qualitätsbewertung wird die Qualität der maschinellen Übersetzung bewertet. Als Bezugsgröße dient dabei in der Regel eine von einem Menschen erstellte Übersetzung des selben Quelltextes. Während die meisten Leser*innen im direkten Vergleich leicht sagen können, welche Übersetzung „natürlicher“ klingt, ist eine rein subjektive Bewertung in größerem Maßstab nicht mehr ohne weiteres möglich.
Bei einer gängigen Bewertungsmethode werden zweisprachige Expert*innen herangezogen, die in einem Blindtest die maschinelle Übersetzung mit der Übersetzung aus der Hand professioneller Übersetzer*innen vergleichen. Im Anschluss an solche Blindtests sind schon mehrfach recht kühne Aussagen über die Qualität maschinell erstellter Übersetzungen gemacht worden. In jedem Fall ist aber zu beachten, dass diese prinzipbedingt an Grenzen stoßen.
An erster Stelle steht hier der Kostenaspekt: Für die Durchführung eines solchen Tests sind sowohl professionelle Übersetzer*innen, als auch menschliche Gutachter*innen erforderlich. Ein Unternehmen, das sich belastbare Bewertungen wünscht, muss hierfür also erst einmal beträchtliche Ressourcen investieren. Es gibt auch Bedenken hinsichtlich der Subjektivität des Verfahrens. Studien haben gezeigt, dass Teilnehmende, die selbst in der Übersetzungsbranche tätig sind, eher höhere Noten für die von ihren menschlichen Kolleg*innen erstellten Übersetzungen geben als fachfremde Teilnehmende. In ähnlicher Weise werden maschinell erstellte Übersetzungen auf Segmentebene eher positiv bewertet (im Gegensatz zur Bewertung im Zusammenhang eines Artikels).
Ein alternativer Ansatz ist die Bewertung großer Textmengen durch Computeralgorithmen, um schnell zu einer objektiven, numerischen Bewertung zu gelangen. Entsprechende Kennzahlen werden durch einen automatisierten Vergleich maschinell erstellter Übersetzungen mit einer von Menschenhand erstellten Übersetzung berechnet. Die konkreten Variablen, die bei dieser Berechnung einbezogen werden, unterscheiden sich von Algorithmus zu Algorithmus, aber grundsätzlich gilt: Je näher die maschinelle Übersetzung an der menschlichen Übersetzung liegt, umso höher ist die erreichte Punktzahl.
Es gibt zahlreiche solcher Algorithmen. Die heute am häufigsten verwendeten sind:
- BLEU (BiLingual Evaluation Understudy)
- ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
- METEOR (Metric for Evaluation of Translation with Explicit ORdering)
Jeder dieser Algorithmen verfolgt einen anderen Ansatz, um zu messen, wie „ähnlich“ die maschinelle Übersetzung der menschlichen ist. Auch ihre spezifischen Vor- und Nachteile werden diskutiert.
Grundsätzlich ist die Qualitätsbewertung eine effektive Methode zur Evaluierung der maschinellen Übersetzung. Sie gibt Nutzer*innen weitreichende Kontrolle über den Prozess und stellt zuverlässige Ergebnisse bereit, die effektive Vergleiche zwischen den Engines ermöglichen. Da hierbei jedoch von Menschen übersetzte Texte herangezogen werden und die Evaluierung selbst sehr zeitaufwändig ist, ist dieses Verfahren relativ langsam und kostspielig.
Ein weiteres Problem besteht darin, dass diese Evaluierungen letzten Endes als „Momentaufnahmen“ nur den Stand zu einem bestimmten Zeitpunkt dokumentieren. Die Qualität der meisten aktiv weiterentwickelten MT-Engines verbessert sich schnell, sodass eine gestern erstellte Bewertung heute möglicherweise schon kaum Aussagekraft mehr hat.
Die Qualitätsprognose hingegen funktioniert anders. Anstatt eine maschinell erstellte Übersetzung zu bewerten, analysiert sie den Quelltext und prognostiziert anhand bestimmter Kriterien, wie gut die Übersetzung sein könnte.
Phrase selbst hat unter dem Namen Machine Translation Quality Estimation (MTQE) eine Lösung für die Qualitätsprognose entwickelt. Dabei wird nur der Quelltext benötigt, da die Prognose auf der Grundlage vorliegender Leistungsdaten erfolgt. Eine von Menschenhand erstellte Übersetzung zum Vergleichen ist nicht notwendig.
Die Qualität wird auf der Grundlage der voraussichtlich erforderlichen Nachbearbeitungen der maschinell erstellen Übersetzung prognostiziert. Bei MTQE wird dies als Prozentsatz ausgedrückt, der bestimmten Segmenten des Textes zugeordnet ist.
Der Prozentwert 100 ist zum Beispiel so zu verstehen, dass das entsprechende Segment nahezu perfekt und eine Nachbearbeitung voraussichtlich nicht erforderlich ist. Ein Wert von 75% deutet darauf hin, dass das Segment durch Überarbeitungen verbessert werden kann.
Obwohl die Prognose auf einer granularen Ebene für jedes einzelne Segment erfolgt, können die resultierenden Kennzahlen in der Summe ein recht gutes Bild der zu erwartenden Leistung einer Engine vermitteln. Einer der Vorteile der Qualitätsprognose ist, dass es sich um einen dynamischen Prozess handelt, der auf der Grundlage von Feedback durch Benutzer*innen kontinuierlich verbessert wird und zunehmend genauere Ergebnisse liefert.
Unabhängig davon, welche Methode du wählst, wirst du dir ein Bild davon machen können, wie verschiedene MT-Engines funktionieren und welche die ideale Kandidatin für deine eigenen Anforderungen und Projekte ist.
Mehr als eine MT-Engine?
Bedenke dabei auch, dass du dich nicht dauerhaft auf eine einzelne Engine festlegen musst. Die meisten Übersetzungsmanagement-Lösungen erlauben es Nutzer*innen, relativ schnell auf eine andere MT-Engine umzuschalten. Es kann durchaus sein, dass sich bei deinen konkreten Projekten Engine „A“ besonders für ein bestimmtes Sprachpaar eignet, während Engine „B“ bei bestimmten Arten von Content bessere Ergebnisse liefert. Mit der Festlegung auf „A“ oder „B“ würdest du dich der Vorteile berauben, welche die andere Engine bietet.
Wir haben bei Phrase mit Phrase Language AI eine einzigartige Lösung für die Verwaltung und Nutzung von MT-Engines entwickelt, mit der du bequem mehrere Engines nutzen kannst, um die bestmöglichen Ergebnisse zu erhalten. Unser KI-basierter Algorithmus wählt auf der Grundlage des Sprachpaares und der Inhalte eines Dokumentes automatisch die am besten geeignete MT-Engine aus. Die Daten zu den Leistungsdaten der verfügbaren Engines werden in Echtzeit gesammelt und verwendet, um die Empfehlungen des Algorithmus kontinuierlich zu verbessern.
Phrase Language AI umfasst mehrere vollständig gemanagte MT-Engines. Ergänzend dazu können Nutzer*innen ihre eigenen Engines – auch trainierbare Engines – hinzufügen. Verwaltung und Tests der Engines sind hier automatisiert – eine hervorragende Grundlage zur Optimierung von Übersetzungs-Workflows, sowohl für routinierte MT-Nutzer*innen als auch Einsteiger*innen.
Die Frage, welche Qualität von einer bestimmten MT-Engine zu erwarten ist, sollte dich nicht davon abhalten, das volle Potenzial maschineller Übersetzung auszuschöpfen. Es gibt viele Möglichkeiten, sich dem Thema „Qualität“ zu nähern – und technische Innovationen werden dich auch in Zukunft dabei unterstützen, noch bessere Übersetzungen zu kreieren.