機械翻訳

機械翻訳エンジンの品質を管理する方法

機械翻訳の品質と、コンテンツに最適なMTエンジンの選び方について学び、機械翻訳の力を最大限に活用しましょう。
Machine translation category visual | Phrase

機械翻訳(MT)は、過去10年間で大きな進歩を遂げました。品質が大いに向上し、今や翻訳・ローカライゼーションワークフローにおいて不可欠の技術になりました。しかし、適切なエンジンの選択方法が分からない新規ユーザーと既存ユーザーは、MTを最大限に活用しきれていません。このガイドは、MTエンジンの品質の内訳と、コンテンツに最適なエンジンを選択する方法をご紹介します。

機械翻訳エンジンの始め方

これからMTを使う場合でも、あるいは既に翻訳プロジェクトで活用している場合でも、最も重要なポイントは、使用するエンジンを選別することです。

現在、様々な種類の数多くのMTエンジンが利用できます。MT(機械翻訳)の状況は常に変化しており、新しいエンジンが次々とリリースされる一方で、既存のエンジンも改善が続けられています。最高のパフォーマンスを発揮するエンジンを選ぶことは、複雑でもどかしいプロセスになるでしょう。

そういった時には、全体像を思い描いてみてください。MTを使用する主な利点は、時間とコストの節約です。機械翻訳は一瞬で終わりますし、さらに人間による翻訳と比較した場合、コストはごくわずかです。これは、現在利用できるすべてのMTエンジンに共通して言える点です。

唯一の障壁は、機械翻訳のアウトプットの品質です。この点は、MTのワークフローを管理するときに考慮すべき最も重要なポイントです。低品質の翻訳では、時間とコストを節約した成果も台無しになりかねません。

機械翻訳の品質について

MTの最近の開発、特に統計的機械翻訳からニューラル機械翻訳への大規模な移行により、MTの基本品質は劇的に向上しました。弊社の社内データによると、2017年以降、最小限のポストエディットを要する完全一致に近い翻訳の量が、約2倍に増えています。最も一般的に使用されているエンジンを使えば、原文のニュアンスまで正確に伝えてくれないにしても、まずまずの意味は伝達できるレベルの翻訳を得られるでしょう。

MTの品質を信頼できるかどうかは、タスクのサイズと重要性によって、大きく変わってきます。たとえば、授業の前に数行の宿題を素早く終わらせたいと願う不届きな学生は、翻訳の質にこだわりません。今日利用されている主なMTエンジンのどれを使っても、この目的のために適度な翻訳を提供してくれます。エラーがおこるとすると、MTエンジンが貧弱というよりも、原文の表現が曖昧なためである可能性が高いでしょう。一方、もしあなたが、風情ある入れ墨を入れるために、自分自身の座右の銘をフランス語か中国語に翻訳しようとしていたら、ネイティブスピーカーに翻訳を再チェックしてもらいたいと願うかもしれません。ちなみにインターネット上には、イマイチな入れ墨の写真があふれています。これは、人々がMTエンジンへの過度な信頼を示している証拠ともいえるでしょう。

また、規模によっても事情は変わります。大企業の場合には、「まずまずの」レベルの翻訳では、不十分でしょう。翻訳の量が増えると、単純なエラーも積み重なります。その結果、壊滅的なエラーが発生する可能性が高まり、最終的には広範囲で費用のかかる人間によるレビューとポストエディットが必要になるでしょう。コストはかさみ、ワークフローが進行する速度も遅くなります。

一方、大規模な翻訳では、ポジティブな要素が明白になりやすいという面もあります。翻訳すればするほど、小規模なサンプルでは気付かなかったような、機械翻訳エンジンによる違いが見えてきます。これらの小さな違いが積み重なると、最終的には大きな影響を与えるでしょう。エンジンの中には、使用していくと、パフォーマンスが向上するものもあります。正しいエンジンを使い続ければ、品質が向上し、コストも節約できるでしょう。そのためには、最高のパフォーマンスを発揮するエンジンを選択することが重要です。

機械翻訳エンジンの種類

機械翻訳エンジンを選択する際には、Amazon Translate、Google Translate、Microsoft Translatorなどの一般的なエンジンか、あるいはカスタマイズしたエンジンか、どちらかを選べます。どちらのタイプのエンジンも、過去の翻訳データを基に翻訳を行います。

カスタマイズしたエンジンは、データを提供し、トレーニングを行っていくことで、品質を改善できます。高品質の過去の翻訳があれば、エンジンを改善するために利用できます。これにより、あなたがこれまで行ってきた翻訳と同様の品質の訳文をMTが生成できるようになるでしょう。特に旅行やホスピタリティ関連のコンテンツは、カスタムエンジンのトレーニングに適しています。ホテルのリストやユーザーレビューは、内容がよく似ています。さらに、豊富なコンテンツが利用可能であるため、エンジンのトレーニングが容易で、望ましい結果を得やすいのです。

この特徴はカスタムエンジンの最大の利点ですが、同時に、欠点でもあります。特定の種類のコンテンツに焦点を合わせると、その分野以外のパフォーマンスが低下する可能性があるためです。ホテルの説明とレビューでトレーニングされたエンジンは、ニュース記事を上手に翻訳できない場合もあるでしょう。

また、カスタムエンジンは、一般的にセットアップと保守に費用がかかります。カスタムエンジンは、同じようなスタイルと内容の原稿を大量に処理する必要があるビジネスに最適です。少しぐらいコストがかかっても、正当化できるほどの成果をもたらします。

一方で、多くのユーザーにとっては、汎用エンジンが最良の選択肢となります。セットアップが迅速にできる上、カスタムエンジンよりもコストが大幅に低いためです。品質を重視する場合には、他のエンジンと比較した上でエンジンを選択することになりますが、これは少し複雑なプロセスになります。

機械翻訳の品質評価または予測

エンジンを選択する際には、常にMTの品質を評価し、その金額に見合った価値があるかどうかを判断することをおすすめします。多くのMTユーザーは、ひとつのエンジンにしぼる前に、利用可能なすべてのオプションについて広範囲な評価を実行します。翻訳業界には、このプロセスを標準化するための、多くの品質指標があります。

一般的に、品質評価と品質の見積もりは区別が可能です。

品質評価は、通常、同じ原文を人間が翻訳した場合を参照して、MT出力の品質を評価します。ほとんどの読者は、どの翻訳がより「自然」であるかは簡単に判断できます。ですが、純粋に主観的な評価では、大規模な評価を効率的に実施することはできません。

一つの方法としては、バイリンガルの専門家がブラインドテストで、MTの出力とプロの翻訳者による翻訳の品質を評価する手法があります。これまで、この方法によってMTの品質向上が謳われてきました。ですが、この方法には大きな制約があります。

主な制約はコストの問題です。このテストを実行するには、人間の翻訳者と人間の評価者が必要になります。正確な評価を得るには、テストにかなりのリソースを投資する必要があるでしょう。評価が主観的になってしまうという懸念もあります。ある研究では、プロの翻訳者は、プロではない翻訳者とは対照的に、人間の翻訳に対して高く評価する傾向が示されました。同様に、セグメントレベルの評価は、記事全体の文脈の中でセグメントを評価するときと比べ、MTに有利に働く傾向があります。

別の評価方法として、コンピュータアルゴリズムを使用して大量の翻訳をすばやく評価し、客観的な数値スコアを生成する方法があります。このスコアは、MT出力と参照翻訳の自動比較によって生成されます。計算に含まれる正確な変数はアルゴリズムごとに異なりますが、一般的には、MT翻訳が参照する翻訳に似ているほど、スコアは高くなります。

さまざまなアルゴリズムがありますが、現在最も一般的に使用されているものは次の通りです。

  • BLEU(BiLingual Evaluation Understudy)
  • ROUGE(Recall-Oriented Understudy for Gisting Evaluation)
  • METEOR(Metric for Evaluation of Translation with Explicit ORdering)

これらのアルゴリズムはそれぞれ、MT出力が参照翻訳とどの程度「類似」しているかを測定するために異なるアプローチを取っています。それぞれに長所と短所があり、議論の余地も存在します。

一般的には、品質評価とは翻訳結果を評価するための有効な手段です。ユーザーはこのプロセスを自由にコントロールでき、エンジンを比較する際にも信頼性の高い評価結果が得られます。ただし、人間が翻訳したテキストを参照用に準備したり、評価自体を設定するプロセスには、時間と費用がかかります。また、これらの評価が、ある特定の時点での「スナップショット」を効果的に生み出してしまう点も弱点です。現在、ほとんどのMTエンジンは、時間の経過とともに急速に進化しています。昨日の結果は、今日はもう当てはまらない可能性もあるのです。

一方で、品質見積もりは品質評価とは異なる仕組みを持っています。MTエンジンの出力を評価するのではなく、翻訳したい原文を分析し、特定の基準に基づいて、翻訳がどれだけ良いかを予測していきます。

Phraseの機能を例にとってご説明します。Phraseは、機械翻訳品質評価(MTQE)として知られる、品質評価基準を開発しました。MTQEを使用する際には、参照翻訳は必要ありません。原文さえあれば、過去のパフォーマンスデータをもとに、評価を実施します。「品質」は、エンジンによって生成された出力結果に、編集を加える必要があるかどうかで評価されます。MTQEでは、品質は、各セグメント上にパーセンテージとして表されます。100%のスコアは、この特定のセグメントが完全で編集の必要がないことを示し、75%のスコアは、改善の余地があることを示します。見積もりはセグメントごとに細かく行っていきますが、累積的にスコアを見ることで、エンジンの性能も把握できます。品質見積もりの一つの利点は、ユーザーのフィードバックに応じて継続的に改善される、動的なプロセスであるということです。「静的な」プロセスではありません。

品質評価も品質見積もりも、どちらを選択しても、様々なエンジンがどのように動作するのか、またどのエンジンが自分のニーズに最適であるかを理解することができます。

複数の機械翻訳エンジンの利用方法

ひとつのエンジンだけを利用する必要はありません。これも大事な点です。ほとんどの翻訳管理ツールには、ユーザーがエンジンを素早く切り替えられる機能が備わっています。例えば、エンジンAは特定の言語ペアに適している一方で、エンジンBは特定の種類のコンテンツに適しているとします。この場合、エンジンAかBのどちらか一方しか使用しないでいると、選ばなかった方のエンジンでより高品質な翻訳が得られたかもしれない、という事態も考えられます。

Phraseでは、そういった事態を防ぐためにPhrase Translateを開発しました。複数のエンジンを便利に活用しつつ、最高の翻訳を実現できる独自の機械翻訳管理機能です。弊社のAIを利用したアルゴリズムによって、ドキュメントの言語ペアとコンテンツタイプに基づいて、コンテンツに最適なMTエンジンを自動的に選択します。エンジン性能に関するデータはリアルタイムで収集され、アルゴリズムの推奨事項を継続的に更新するために使われます。

Phrase Translateにはいくつかのフルマネージドエンジンが付属しています。さらに、ユーザーはカスタマイズ可能なエンジンを含め、独自のエンジンを追加できます。エンジンの管理とテストのプロセスが自動化されるので、MTの初心者も既存のユーザーも、ワークフローを最適化できるようになるでしょう。

機械翻訳エンジンの品質のせいでMTが活用しきれない、という事態は変えられます。難題を解決する手段や新しいイノベーションも豊富にあります。こうした技術を利用することで、あなたの翻訳をさらに効率化できます。