機械翻訳

高精度機械翻訳「DeepL」とは? Google翻訳との違い、効果的な利用方法

2017年に発表された機械翻訳エンジン「DeepL翻訳」は、品質の高さで世界を驚かせました。そのDeepLの特徴について詳しく紹介します。
Machine translation category visual | Phrase

世界中で機械翻訳の利用が広がるなか、ベンチャーから大手IT企業まで、さまざまなベンダーが機械翻訳エンジンを開発しています。それぞれのエンジンに、翻訳の性質、得意とする分野、対応言語、利用方法、価格など、特色が見られるようになってきました。今回はその中から、とくに流暢で自然な訳文の評価が高い、DeepLについて見ていきたいと思います。

DeepLとは?

DeepLの概要

DeepL(ディープエル)翻訳は、ドイツのケルンに拠点を置くDeepL社が開発・提供している機械翻訳エンジンです。同社の前身は、翻訳検索エンジンを開発し、オンライン辞書を公開していたLinguee社で、そこで集めた良質な対訳データを活用して、DeepL翻訳が開発されました。

2017年8月に、無料の翻訳サービスとして「DeepL翻訳」が発表されると、他の機械翻訳エンジンに比べて、自然で流暢な翻訳文を出力すると評判を呼びました。GoogleやMicrosoft、AmazonといったIT大手に比べて規模の小さなベンチャー企業でありながら、学習データを厳選し、高精度な機械翻訳に特化した開発を行うことで、高い品質を生み出しています。

DeepLの対応言語

2022年5月時点で、DeepLは26言語に対応。650以上の言語ペアで利用できます。100言語以上に対応しているGoogle翻訳に比べると少ないものの、欧州言語を中心に世界の主要言語をカバー。2020年に日本語と中国語、2021年にエストニア語、ギリシャ語、スウェーデン語など欧州13言語を追加するなど、対応言語数は年々増加しています。

DeepLの翻訳精度は?

DeepL翻訳の登場時には、その訳文の精度の高さが人々を驚かせました。実際に同社が2020年と2021年に行った、社外のプロ翻訳者によるブラインドテスト(翻訳エンジンの名前を伏せたうえで訳文を示し、品質を評価してもらう)でも、​​欧州言語のほか日本語-英語、中国語-英語のペアを含めて、DeepL翻訳が他の主要エンジン(Google、Amazon、Microsoft)よりも優れていると評価される頻度が約3倍高いという結果が得られています。

良質なデータの確保と数値計算の工夫、社内の言語エキスパートの貢献により、漢字、ひらがな、カタカナを持つ日本語や中国語といった欧州言語とは異なる体系の言語でも、高い翻訳品質を実現。日本のユーザーからは、方言や口語文の精度も高いとの評判を得ています。

DeepLの特徴は?

DeepL翻訳は、ブラウザ版、デスクトップ版(Windows/Mac)、モバイルアプリ(IOS/Android)を提供しており、あらゆるプラットフォームからアクセスできます。ブラウザ版、デスクトップ版とも、テキストをフォームに入力すると、その右側に翻訳文が表示される仕様になっています。この基本的なインターフェイスはGoogle翻訳等と似ていますが、以下のような特徴的な機能があります。

カスタマイズ

訳文内の単語をクリックすると、別の訳語の候補が表示され、簡単に文章をカスタマイズできます。また、Google翻訳と同様に、文中の単語をクリックすると意味や発音が示される辞書機能も備わっています。

文書ファイル翻訳

WordやPowerPoint、PDFなどの文書ファイルをそのまま読み込んで翻訳し、結果を元のフォーマットに書き出せます。とくに多くのユーザーからの要望に応えて2021年に対応したPDFは、学術論文やビジネス資料の翻訳に便利で、DeepLで一番人気のファイル形式となっています。

オリジナルの用語集の作成

特定の用語について、あらかじめ訳語を定義しておくことで、常に訳文内での表現を統一できます。専門用語や固有名詞の表現を固定したい場合に役立つ機能です。英語、フランス語、スペイン語、ドイツ語に加え、2022年5月からは日本語-英語ペアでも、この用語集機能を利用できるようになりました。

敬称と親称の使い分け

欧州系の言語では、人称代名詞に、親しい間柄で使う親称と、敬意や尊敬の念を込めて用いる敬称を使い分ける言語があります。有料プランのDeepL Proでは、この敬称と親称を自動的に切り替えることができます。

翻訳支援(CAT)ツールへの組み込み、セキュリティなど

翻訳支援(CAT)ツールへの組み込み機能(有料版)や、ソフトウェア開発者向けにAPIを利用できるプランも用意されています。また、有料版のDeepL Proでは、翻訳完了後にテキストデータが即時消去されるなど、セキュリティが強化されており、ビジネスにも利用しやすくなっています。

DeepLの仕組みとは?

アルゴリズムの詳細は公開されていませんが、DeepLも、他の主要な機械翻訳エンジンと同様に、ニューラルネットワークを用い、大量の翻訳データを使って学習を行っています。その上で、DeepLではとくに次の4つの領域で、一般的なニューラル機械翻訳に対して改善を加えています。

ネットワークアーキテクチャ

DeepLのニューラルネットワークでも、Attention(注意)機構など、現在主流となっているTransformerモデルのアーキテクチャが一部採用されています。それに加えて、独自のネットワークモデルを用いることで、一般的なTransformerのアーキテクチャよりも高品質な翻訳を生み出せるよう工夫されています。

学習データ

DeepLは、ニューラル機械翻訳の精度向上に特化した学習データの確保に重点を置いており、そのためにインターネット上の翻訳データを自動探索し、翻訳の品質を自動評価する特殊なクローラーを開発しています。これにより、大量データの確保に有利な大手IT企業を凌ぐ翻訳品質を実現しています。

学習手法

DeepLでは「教師あり学習」の手法でネットワークを学習させています。異なる例文をネットワークに繰り返し提示し、ネットワークは自身の訳文と学習データを比較して、差異があれば重み付けを調整していきます。 また、ニューラルネットワークの学習に、別分野の機械学習の技術も応用して、品質向上を図っています。

ネットワークのサイズ

他の主要なエンジンと同様、DeepLも何十億ものパラメーターで翻訳ネットワークを学習させていますが、このような巨大なネットワークを扱うには、大規模な計算能力が必要になります。DeepLでは、分散型のシステムでパラメーターを効率的に処理することで、潤沢なリソースを持つ大手企業より小規模ながら高速なネットワークを実現。無料版も含めて多くのユーザーに高精度な翻訳サービスを提供しています。

DeepLとGoogle翻訳、どちらを使うべき?

対応言語数はGoogle翻訳の方が多いものの、DeepLはよりニュアンスを汲み取った流暢な訳文を出力できるとして、品質面で高い評価を受けています。ただ、Google翻訳を含め、他のエンジンも日々進化を続けています。各社がしのぎを削る中、今後どのように品質や使い勝手が変化していくか、最新の動向に注目していく必要があるでしょう。

各社が独自に開発を進める中、エンジンによって得意・不得意とする分野や言語ペアが見られるようになっています。そのため、実際の業務で使用する際には、対象とするコンテンツや目的に応じたエンジンの使い分けが、ベストな結果を得るポイントになります。

Phraseのデータを使った調査では、英語-日本語ペアにおいて、ビジネス・教育の分野ではDeepL、コンシューマーエレクトロニクス分野ではMicrosoft、旅行・ホスピタリティ分野ではAmazon、医薬分野ではGoogleが、それぞれ最高の品質スコアを記録しています。

また、現在の翻訳・ローカライズ業務では、翻訳管理システム、CATツール、CMSやストレージといったさまざまなツールを連携させて自動化し、効率化を図るケースが増えています。自社のワークフローにスムーズに組み込めるかどうかも、エンジンを選択する際の判断材料となるでしょう。

DeepLの翻訳は完璧?

機械翻訳は目覚ましい発展を遂げているとはいえ、性能が高いと言われるDeepLでも、信頼性が重視されるビジネスの現場で使用するには、まだ完璧とはいえません。とくにDeepLは訳文が流暢であるがゆえに、重大な間違いが潜んでいても見落としやすいというリスクがあります。例えば、意味が真逆になっていたり、一部がごっそり抜けていたりするケースがあるため、そのまま使うとビジネスや社会に大きな影響を及ぼしてしまう恐れがあります。

そのため、現在の翻訳・ローカライズ業務の現場では、人間の目によるチェックとポストエディット(後編集)の工程が必須となっています。

また正確性以外にも、以下のように、背景、歴史、文脈、意図の理解、言語以外の側面からの配慮など、人間の翻訳者にしかできないことは、まだ多くあります。

  • 質問する:機械翻訳は原文に問題があっても指摘してくれません。
  • 文脈を理解する:機械翻訳でも前後関係を考慮した翻訳に対応し始めていますが、まだ人間による理解や工夫には及びません。
  • 皮肉を理解する:皮肉やジョークをちょうどいい案配にローカライズするには、人間の翻訳者によるセンスが必要です。
  • 創造的に翻訳する:目的に応じていかに文章をアレンジするかも、人間の翻訳者の腕の見せ所です。
  • 配慮をする:顧客との関係性や、偏見が含まれた表現、時事問題などへの繊細かつタイムリーな配慮は、人間ならではのものです。
  • リサーチする:人間の翻訳者は、背景や歴史、公式な表現、競合他社の動向などを調査した上で、言葉を選択できます。
  • 一貫性を保つ:人間の翻訳者なら、関連する文書全体を通して一貫した表現を適用できると同時に、表現が単調になることを避けたり、例外処理をしたりといった、臨機応変な対応も可能です。
  • 有効性を保証する:機械は翻訳作業自体は瞬時に行いますが、翻訳が目的に対して有効なものであるかどうかは判断してくれません。
  • 情報を取捨選択する:現地の文化や目的に合った適切なローカライズを行うには、情報を意図的に削ったり、加えたり、移動させたりといった編集能力が求められます。
  • 補足や注釈を加える:対象となるオーディエンスの知識度合いを想定して、用語に解説を加えたり、注釈を入れたりするためには、人間による想像力が必要です。

DeepLを最大限に活用するには?

DeepLに代表されるように、機械翻訳は、ほんの10年前では考えられないほどの進化を遂げてきました。正確性や背景理解の面で課題があるため、人間による確認や編集が必要であるものの、ほとんど手を加えなくとも、ビジネスレベルで使える文章が出力される割合が増えています。Phraseのデータでは、機械翻訳の出力文の7割程度がそのまま活用されています。今や機械翻訳は、個人で利用する翻訳ツールから、グローバルビジネスを展開する企業の生産性向上に欠かせないツールへと成長しています。

今後、量子コンピューターの登場などにより、より複雑な計算が可能になれば、さらなるブレイクスルーが起こる可能性もあるでしょう。現在は人間の翻訳者にしかできないとされている課題も、やがて新しいテクノロジーによって解決されるかもしれません。

翻訳管理システムを使ったポストエディット

ただ、いずれにしても、現時点で実際のビジネスで機械翻訳を利用する際には、人間によるポストエディットの工程を組み入れるのがベストプラクティスです。

その「機械翻訳+ポストエディット」を効果的、効率的に業務に組み入れるのに便利なツールが、翻訳支援(CAT)ツールを含む、翻訳管理システム(TMS)です。DeepLとの連携機能が提供されている翻訳管理システムなら、クリックひとつでDeepLの出力を取り込めます。コンテンツのジャンルを自動判別して、複数の機械翻訳エンジンから最適なものを自動選択してくれる機能を備えた翻訳管理システムもあります。

目的に応じて、どの程度のポストエディット(フル/ライト)を行うかの判断も、コスト効率の面でポイントになります。現在の翻訳管理システムには、機械翻訳の品質を自動評価してくれるものがあり、ポストエディットにかかる労力の見極めに役立ちます。

また、ポストエディット作業を経験豊富な翻訳者(リンギスト)に依頼することも、品質維持の面で重要です。翻訳業務に特化した翻訳管理システムは、このような外部リンギストへのタスク割り当てや共同作業、ワークフロー管理にも力を発揮します。

DeepLを筆頭に、各社の切磋琢磨により日々精度を向上させている機械翻訳エンジン。その進化を多くの企業や組織が取り入れ、翻訳管理システムを使ってスムーズかつ最大限に活用して、世界のコミュニケーションがさらに深まっていくことを願っています。