机器翻译

如何管理机器翻译引擎质量

了解机器翻译质量以及如何根据内容选择最佳机器翻译引擎,释放机器翻译引擎最大生产力。

(机器翻译)引擎蓄势待发

无论您是刚刚接触机器翻译,还是可以在翻译项目中熟练使用机器翻译,您所选用的机器翻译引擎都是最关键的要素。

当今市场上,机器翻译引擎种类繁多。随着新翻译引擎的不断推出和现有翻译引擎的优化,机器翻译市场可以说是日新月异,这使得选择最佳引擎的难度陡增,令人头疼。

若我们先从大方向着手,机器翻译最大的优势在于降本增效,翻译几乎瞬时可得,而成本与人工翻译相比几乎可以忽略不计。当今市场上所有翻译引擎都能做到这一点。

如此一来,各个翻译引擎之间最主要的区别就是翻译的质量了。在管理使用机器翻译的工作流时,翻译的质量可能是最关键的变量。若翻译质量欠佳,效率再高、成本再低都是空谈。

机器翻译质量

近年来,机器翻译由统计机器翻译完全转变为神经网络机器翻译,极大地提升了机器翻译质量。我们的内部数据表明,自 2017 年起到今日,翻译质量能够被评为近乎完美的句段(即几乎不需要人工译后编辑)数量近乎翻了一倍。当下主流翻译引擎大概率能够输出质量过得去的翻译。虽然原文的细微之处无法时时兼顾,但大体能够传达源语言的意思。

机器翻译结果的可信度很大程度上取决于原文的长度和重要性。赶着交英语作业的学生想要快速翻译几个句子(虽然我们不鼓励这种行为),并不太在意句子的翻译质量,那所有主流机器翻译引擎都能够胜任。机器翻译结果的准确度也取决于原文表意是否清晰。原文越是语焉不详,机器翻译就越可能出错。如果您想要将您最喜欢的一句话翻译成法文或英文纹在身上,那最好还是先让当地的朋友看看翻译是否准确。上网随手一搜就能找到许多过于轻信机器翻译引擎的纹身苦主。

项目规模越大,需要考量的因素也越复杂。对于一家企业来说,“过得去”的翻译质量可能远远不够。随着文本量的增加,简单的错误开始积少成多,出现重大错误的可能性也急剧上升,需要的人工审校和译后编辑的工作量也相应增加,成本随之上涨。慢慢的,机器翻译降本增效的优势也消失殆尽。

但文本量的增加也不全是坏事。翻译的文本越多,不同翻译引擎之间的区别也会逐渐显现。文本量小时或许还不明显,但正如路遥知马力,量大方见真章。几相对比之下,总会有引擎质量脱颖而出。选择了对的引擎,才能谈质量与降本。故此,选择表现最佳的翻译引擎是关键。

机器翻译引擎类型

您可以选择 Amazon Translate、谷歌翻译或 Microsoft Translator 这一类通用翻译引擎,或专业翻译引擎。这两种翻译引擎都会使用过往翻译数据优化表现。

您可以使用自己的数据训练专业翻译引擎,优化翻译结果。用过往优秀翻译指导引擎,让翻译引擎输出更接近您过往翻译的翻译结果。举例来说,旅游和酒店业内容就特别适合使用专业机器翻译引擎训练。酒店房源描述和用户评价这一类内容往往重复性高,且能找到的文本量大,为机器翻译引擎训练提供了极佳的条件。

专业翻译引擎在某一领域的专业度是一把双刃剑,既是其最大的优势所在,也是劣势。因为专业翻译引擎过于专注于某一领域的内容,该领域之外的其他内容的翻译质量可能会比通用引擎更差。若您使用酒店房源和用户评价训练的翻译引擎翻译新闻,质量可能惨不忍睹。

除此之外,专业翻译引擎创建和维护的费用相对更高,适合需要处理大批量风格和内容相似的文本、且有余力支付较高的成本的企业。

对于绝大部分用户来说,通用引擎是最好的选择,创建简单,成本相较于自定义引擎来说也很低。但若您对质量要求较高,选择哪个通用引擎也不是一件易事。

如何评估或预估机器翻译质量

我们建议您在选择机器翻译引擎时,先评估翻译的质量,确保物有所值。许多机器翻译用户在决定使用某一家翻译引擎前,都会对多家产品进行充分的评估。行业内也有各种成熟的质量评价体系来规范甄选流程。

想必大家都能区分质量评估和预估二者之间的区别。

顾名思义,质量评估即为评估机器翻译输出的翻译质量,对标的通常是人工翻译。相信本文绝大多数读者都能判断哪家翻译引擎输出的翻译听起来更为“自然”,但这种完全主观的判断无法有效地评估文本量大的项目。

在这种情况下,您可以选择求助专业双语专家盲测机器引擎和专业译员的人工翻译结果。在过去,类似的盲测结果让某些人对不断优化的机器翻译质量盲目乐观,但这种评估方式还是有一些明显的局限性。

首当其冲是成本问题。此类盲测需要雇佣专业译员和评估人员。要保证评估结果的准确性,盲测中该花的资源一点都不能少。其次是评估的主观性。有研究表明,专业译员在评估时,对人工翻译的结果有较明显的偏向性,而非语言专业从业人员则恰好相反。同时,当以句段为单位评估翻译质量时,机器翻译结果的得分普遍较高;结合了上下文之后则不然。

您还可以选择使用算法快速评估多条翻译结果,并为翻译打分。算法会根据您给出的参考翻译,自动对比不同翻译引擎输出的结果,最后给出一个分值。虽然不同算法使用的具体变量不同,但一般来说输出的结果越接近参考翻译,分值就越高。

当今市面上翻译评估算法可谓百花齐放,但主流的有这几个:

  • 双语替换评测 (BLEU)
  • 召回率导向词汇重叠评估 (ROUGE)
  • 显式排序的翻译评估标准 (METEOR)

以上三种算法采取了不同的方式评估机器翻译结果与参考翻译的“相似度”。三种算法各有千秋,本文暂且按下不表。

一般来说,质量评估能够有效评估机器翻译引擎输出的翻译质量,提高了用户对翻译流程的掌控度,协助其有效对比不同翻译引擎的表现。但这种方式的缺点在于,用户还是需要提供人工翻译结果作为参考,而且搭建评估框架本身也需要时间,导致耗时相对较长,成本较高。而且评估得来的结果也只能反应机器翻译引擎在某一段时间内的翻译质量。而现如今机器翻译引擎发展迅猛,大大缩短了评估结果的时效性。

与质量评估不同,质量预估不看机器翻译引擎输出的结果,而是通过分析原文,结合相关标准预估翻译的质量好坏。

Phrase 自主研发了一套质量预估解决方案,称为机器翻译质量预估 (MTQE)。用户无需提供参考翻译,只要原文即可。系统会根据机器翻译引擎过往表现数据预估翻译的质量。这套方案对“质量”的判断依据是翻译结果是否需要进行译后编辑,及所需的编辑幅度大小。MTQE 系统会给预估的每个句段打分。若句段得分为 100%,意味着这句话的翻译完美,无需进行译后编辑;若句段得分为 75%,则意味着该句段有优化的空间。预估后,用户不仅能看到每一条句段的具体得分,还能看到翻译引擎的总得分。预估方案的一大优势在于,它会根据用户反馈不断动态调整和优化评估结果,符合机器翻译引擎发展的规律。

无论您最终选择哪种评估方式,您多少都能够了解机器翻译引擎的表现,并选出最符合您需求的引擎。

各取所长

您也可以同时启用多个引擎,按需选择。现今几乎所有翻译管理软件都提供了快速切换机器翻译引擎的功能。机器翻译引擎各有所长。引擎 A 可能比较适合翻译某一个语言对,引擎 B 可能适合翻译某一类内容。若您只在引擎 A 或 B 二者中取其一,总会在某些领域有所缺憾。

Phrase 团队自研的 Phrase Translate 是一套独特的机器翻译管理解决方案,用户可轻松调用多个机器翻译引擎,实现机器翻译最优解。Phrase Translate 的算法整合了人工智能,会自动根据待翻译内容的语言对和类型选择最合适的机器翻译引擎,并实时收集翻译引擎表现数据,不断优化推荐的算法。

Phrase Translate 内置多个完全自动的机器翻译引擎,用户还可自行添加自定义翻译引擎。在 Phrase Translate 的帮助下,用户可以完全实现自动化引擎管理和测试,机器翻译新手和资深用户都能从中受益。

不要被机器翻译引擎的质量吓跑,质量是可以通过多种方案管控的。新技术创新的出现也能让您将翻译带到一个新高度。