机器翻译
机器翻译详解:类型、用例和最佳实践
利用计算机将文本从一种语言翻译成另一种语言一直是计算机科学的梦想。虽然如此,机器翻译 (MT) 也只是在过去十年间才成为一种可用的生产力工具,并得到了更广泛的应用。自然语言处理、人工智能 (AI) 和计算能力方面的进步都促进了这一日益实用的技术的发展。
为了帮助您更好地了解机器翻译的来龙去脉,本指南将对机器翻译进行定义,并通过大量示例和建议来说明它的类型和优势。我们还会介绍您可以如何将机器翻译整合到现有的翻译和本地化工作流程中。最后,我们概述了怎样的机器翻译软件才能支持您的工作流,并帮助推动您的全球业务增长。
机器翻译是什么?
机器翻译是使用计算机应用程序把文本从一种自然语言自动翻译成另一种自然语言的过程。这意味着您可以将文本添加到机器翻译软件中作为源语言,然后让该工具自动将文本转换到特定的目标语言。
Unlock the power of machine translation
Discover advanced machine translation management features within our enterprise-ready TMS and create new business opportunities worldwide more quickly and efficiently.
机器翻译的开端
翻译是算力的首批应用之一,始于 20 世纪 50 年代著名的乔治城-IBM实验。不过,这项任务的复杂程度远远超出了早期计算机科学家的估计,其需要的巨大的数据处理算力和存储能力也远远超出了早期机器。
直到本世纪初,软件、数据和所需硬件才具备了进行基本机器翻译的能力。早期开发者使用语言统计数据库来“教”计算机翻译文本。培训这些机器需要大量的人工,而且每增加一种语言,就需要重新进行一次该语言的开发。
今天的机器翻译
2016 年,谷歌实施了机器翻译技术的一项关键创新,转而采用基于 2014 年研究的神经网络学习模型。这种方法使用 AI 训练机器翻译引擎,事实证明比谷歌主要的统计机器翻译引擎更高效、更快速。而且越使用,翻译质量也越会显著提高。
事实证明,神经网络机器翻译非常好用,因此谷歌改变了方向,将其作为主要开发模型。微软和亚马逊在内的其他主要服务商也很快跟进,质量不断提高,机器翻译作为辅助翻译技术的价值也不断提升。
现在,许多翻译和本地化技术解决方案都集成了机器翻译功能,来满足企业出海时日益增长的克服语言障碍的需求。后文我们还会进行更详细的介绍。
Download for free
Your up-to-the-minute guide to machine translation
Learn about new technologies to improve machine translation output quality, the latest on MT post-editing pricing models, and how to best shop for machine translation.
机器翻译的原理是什么?
随着时间的推移,机器翻译的发展出了多种类型的机器翻译系统,每种系统都有自己的优缺点。机器翻译最常见的三种类型包括基于规则的机器翻译、统计机器翻译和神经网络机器翻译。
基于规则的机器翻译 (RBMT)
基于规则的机器翻译是最早的机器翻译形式,它依赖于大量预定义的语言规则,帮助软件在不同语言之间转换文本的含义。总的来说,它的翻译质量不高,而且需要手动添加语言和大量的译后编辑。
基于规则的机器翻译如今已很少使用。
统计机器翻译 (SMT)
统计机器翻译为特定文本建立了单词、短语和句子之间关系的统计模型,并将模型应用于第二种语言,将这些元素转换为新语言。因此,统计机器翻译比基于规则的机器翻译更加先进,但也存在许多相同的问题。
统计机器翻译大部分被神经网络机器翻译所取代,但有时也用于传统机器翻译系统。
神经网络机器翻译 (NMT)
神经网络机器翻译利用 AI 来“学习”语言,并不断完善其知识,就像人脑中的神经网络一样。与运行一套预定义的规则不同,机器翻译引擎的神经网络负责对源文本进行编码和解码。
神经网络机器翻译更准确,可以添加更多的语言,而且一旦训练完成,运行速度更快,因此成为了当今机器翻译技术发展的标准。
机器翻译发展历程
自动化翻译与机器翻译的区别
自动化翻译与机器翻译经常被混为一谈,但这两个词不能互换,因为它们的功能完全不同。
自动化翻译指传统计算机辅助翻译工具(CAT 工具)或云翻译管理系统 (TMS) 中内置的触发程序,用于执行翻译相关的手动或重复性任务。自动化翻译的目的是提高整个翻译过程的效率。
例如,自动化翻译可用于触发文本的机器翻译,将其作为翻译工作流中的任务之一。
机器翻译是利用软件将文本从一种自然语言转换成另一种自然语言。换句话说,机器翻译不像传统翻译那样需要人工输入。因此,机器翻译也被称为自动翻译。
主要机器翻译提供商
领先的机器翻译技术开发商,如谷歌、微软、亚马逊等,目前都将神经网络翻译技术作为首选方法,因为它既能实现更细致入微的翻译,又能不断增加语言对。机器翻译引擎可以随着使用次数的增加而不断学习和改进,从而使这种增长能力成为可能。
机器翻译引擎的质量基于训练数据。根据您的需要,您可以使用通用数据或自定义数据。
- 通用数据就是机器翻译引擎从长期执行的所有翻译中学习到的所有数据的总和。它是一种通用翻译工具,适用于各类应用,包括文本、语音和完整文档(包括格式)。
- 自定义数据是喂给机器翻译引擎的数据,用于训练工程或其他专业学科等领域,这些领域有自己的术语。
通用机器翻译引擎
大型的机器翻译提供商都在向神经网络机器翻译转型,但所选的路径各不相同。一方面,它们可以通过提供免费、易用的工具触达更多普通用户;另一方面,一些引擎还支持根据具体的业务需求进行定制。让我们来看看最受欢迎的通用机器翻译引擎都有哪些。
Google 翻译
根据使用量、语言数量以及与搜索的集成情况,Google 翻译被认为是最领先的机器翻译引擎之一。Google 翻译是最早采用神经网络机器翻译的主流服务商之一。Google 翻译的准确性一直是企业和语言行业专家关注和争论的焦点。
Amazon Translate
Amazon Translate 也是基于神经网络,并与亚马逊网络服务 (AWS) 高度集成。Amazon Translate 自 2017 年推出以来,在短短时间内就取得了令人瞩目的成绩,考虑到母公司雄厚的实力,能取得这样的成绩也在意料之中。
微软翻译
微软翻译也是一个基于云的神经网络翻译引擎,它与微软 Office 和其他产品高度集成,在文档或其他软件界面即可使用翻译功能。
DeepL
DeepL是一家德国公司的产品,该公司专门致力于开发机器翻译引擎。DeepL 称,因为自己使用的是专有的神经网络 AI,它输出的翻译更加细致自然。
Systran Translate
Systran 是第一家提供商用机器翻译的公司。Systran 成立于 1968 年,一直紧跟最新技术发展,推出了一些有趣的创新技术,其中最新的技术是纯神经网络机器翻译 (PNMT)。
自定义机器翻译引擎
自定义机器翻译引擎经过训练,在翻译特定内容类型(也称为领域,如技术或法律翻译)或为特定公司翻译时表现更佳。其中的关键在于相关领域的高质量训练数据,这些数据可用于“教授”机器翻译引擎在未来针对特定用例进行类似翻译。自定义机器翻译引擎最简单的方法之一就是使用机器翻译词汇表。
Google AutoML 和微软自定义翻译是两种常用的自定义机器翻译解决方案。
如果实施得当,自定义机器翻译输出译文的质量明显高于通用机器翻译。然而,机器翻译自定义需要一定的技术和投入。完全自定义机器翻译引擎是一项复杂的任务,而且每次自定义都是独一无二的。
Interactive MT report: Uncover top performers
Find out how leading machine translation engines perform for different content types using the latest data in our quarterly machine translation report.
机器翻译的优势
在引入神经网络学习之前,机器翻译在很大程度上仍是一种小众产品,其生成的译文质量参差不齐,有时难以阅读,甚至引人发笑。现代机器翻译工具在很大程度上改变了这一切,并日益成为商务翻译中不可或缺的工具。
提升速度和可处理的文本量
随着机器学习算法和硬件技术的不断进步,机器翻译的速度和效率也在不断提高。它不仅能够几乎即时翻译数百万字,还能随着翻译内容的增加而不断改进。
对于大文本项目,机器翻译不仅能快速处理文本,还能与内容或翻译管理系统等其他软件平台集成,来管理这些内容。这样,在将内容翻译成多种语言时,可以有效管理文本和上下文。
消除障碍
主要的机器翻译提供商可提供多达 100 种语言,有时甚至更多,因此可以同时向多个目标市场提供翻译服务,这为企业和客户创造了双赢局面。
通过消除语言障碍和改善客户体验,机器翻译为全球潜在买家提供了更多内容、产品和服务。同时,通过接触更广泛的受众,企业可以显著扩大市场份额,提高盈利能力。
降低成本
高速吞吐量加上数十种语言对,意味着使用机器翻译服务可以降低成本并缩短交付时间,即使加上人工译后编辑的时间。
机器翻译提供了基本但实用的翻译,完成了最繁重的基础工作。然后,译员会在机器翻译的基础上进行完善,更贴切地反映原文的含义,并针对每个区域进行适当的本地化。
机器翻译的局限性
机器翻译的成本相对较低,延迟极小,对于希望高效拓展全球业务的企业来说是一个极具吸引力的选择。然而与任何技术一样,机器翻译也有其局限性。
大多数问题都可以通过整合人类专家的专业知识来有效地解决,如依靠机器翻译译后编辑 (MTPE) 和自定义机器翻译引擎。
这两种方法都有助于在效率和语言精确度之间取得平衡,让企业能够利用机器翻译的优势,同时突破其固有的制约。让我们来看看机器翻译相关的一些常见问题。
需注意的问题 | 潜在解决方案 |
准确性和领域特殊性 | 通过整合机器翻译词汇表,您的自定义机器翻译模型可以适应不断变化的语言模式和语境,这对您的业务至关重要。利用人工反馈进行调整还能让机器翻译向译员学习,纠正错误,并随着时间的推移提高翻译质量。 |
语言上的细微差别 | 结合文化知识和上下文感知算法,帮助您的自定义机器翻译模型理解源语言中的细微差别、习惯用语和文化典故,并综合上下文选择最恰当的翻译,从而更有效地捕捉原文含义。 |
小语种 | 译后编辑是保证小语种翻译质量最有效的方法之一。随着您的需求的变化,您可以探索不同的机器翻译解决方案,从学习模型、数据注释到社区和开源工具。 |
偏见 | 虽然译后编辑和人工反馈对于减少通用机器翻译引擎输出的偏差至关重要,但从长远来看,最佳的解决方案是使用多样化、无偏见的数据集(不偏向任何特定群体、观点或人口特征)来培训您自己的自定义机器翻译模型。 |
机器翻译译后编辑 | 培训译员如何进行译后编辑有助于最大化机器翻译的潜力,译员可以深入了解翻译质量、准确性和文化敏感性。确保您的翻译服务商得到了 ISO 18587:2017 认证,并定期对译后编辑后的内容进行质量检查,来提高工作效率。 |
一致性 | 将机器翻译与翻译记忆库相结合。机器翻译输出经过译后编辑及核准后,将这些译文保存在您的翻译记忆库中,这样译员就能在今后的翻译项目中重复使用,从而提高一致性。 |
隐私 | 审查机器翻译提供商的隐私政策,并与您的法务部门核实其对企业的影响。译员只能在自己被分配的项目上使用机器翻译,而且只能通过安全托管的服务器访问,以防止潜在的数据丢失或隐私问题。 |
在现有翻译工作流中实施机器翻译
如前所述,机器翻译的低成本和无延迟两大优势足够让许多仍在上升期的企业将其纳入自己的自动化翻译和本地化工作流中。
实施有效的机器翻译战略可以很简单,只需依靠尖端的云翻译技术实现自动化和优化翻译管理。
例如,翻译管理系统可原生自动运行翻译,并结合人工翻译一同交付。
只要遵循几个基本步骤和最佳实践,再加上一个可靠的翻译管理系统,您也能实现无缝的企业级机器翻译流程,并长久稳定运行。
机器翻译的十大最佳实践 |
定义全球化计划中机器翻译使用的目的、目标和期望。 分析现有内容,选择适合机器翻译处理的内容类型。 明确所需的语言对,不同的机器翻译引擎在处理不同语言对时各有所长。 制定时间表和财务计划,您在机器翻译上投入多少资金和时间,就决定了您能收获多少成果。 根据内容类型和语言对选择机器翻译服务,并审核其隐私政策。 若情况允许,使用您自己的语言数据训练机器翻译引擎,提高长期输出质量。 若您选择对机器翻译进行译后编辑,确保您公司内部或语言服务商的译员接受过相关培训,或至少对译后编辑持开放态度。 商定机器翻译译后编辑的收费模式,并确保所有利益相关方(包括翻译服务商)都参与了决策过程。 在部署前运行样本测试,评估机器翻译输出译文的质量,并确定需要改进的地方。 边部署边改进。请记住,最初的结果可能达不到您的预期,但随着时间的推移,输出译文的质量会提高。 |
机器翻译与人工翻译:依用例达到平衡
随着机器翻译技术的不断发展,无需在本地化项目开始时就决定使用机器翻译还是人工翻译。越来越多的企业、语言服务商和译员认识到机器翻译译后编辑 (MTPE) 的优势,由译员对机器翻译的内容进行编辑。
现在,机器翻译译后编辑被广泛认为是全文人工翻译一种可行的替代方法。
在决定适当的翻译方法时,需考虑内容的类型和所需的语言对。一般来说,机器翻译适合结构性较强的内容,如技术、法律、知识产权及内部交流相关文档。与此相反的是营销材料和其他面向客户的内容,这些内容需要更多的人情味。
接下来,我们探讨的是三大内容类型,帮助您确定最高效的翻译方法,并获得最佳效果。
机器翻译原始输出适用于处理影响较小、内容含义明确的内容
我们将未经人工审校的机器翻译译文称为机器翻译“原始”输出。一般来说,最好不要用机器翻译原始输出处理会影响品牌形象的内容。机器翻译原始输出适用的文本类型有:
- 可见度或流量低的内容,如内部文档、网站页脚、用于文本情感分析的社交媒体帖子等。
- 重复度高的技术内容,准确度不要求达到 100%,可指导操作即可,如使用手册。
- 用户生成的内容,如产品评论,消费者通常对这类文本质量要求不高。
- 生命周期短的内容,如聊天或客服邮件、客户咨询等。
- 需要短时间内交付的大量内容,例如需要快速上线的数百个产品描述。
- 需要经常修改的内容,如功能和信息更新。
如果您决定使用机器翻译原始输出,就必须确保您选择的机器翻译引擎是最适合您所需的语言对和内容类型的,这就需要进行大量测试或集成的自动选择功能。
对更敏感的内容进行轻度或全面的译后编辑
为了保证质量,一些类型的内容和用例需要译员对机器翻译输出进行译后编辑。这种编辑可以是轻度编辑 (LPE),也可以是全面译后编辑 (FPE)。
但好消息是,词汇表、术语库和翻译记忆库等传统翻译技术,以及品牌手册和风格指南都能用来辅助译后编辑工作。这样就能确保品牌的声音和关键信息在不同目标市场的语言和文化语境下保持一致,对译后编辑来说也是极大的帮助。
现代翻译技术还可以识别和预估机器翻译输出的质量,从而将译后编辑资源集中到最需要的地方。不过,作为一般指导原则,以下文本类型需要进行译后编辑:
- 产品名称:产品名称信息量大且简明扼要,往往包含专有名词和多义词,词序弹性通常较大,容易造成歧义。
- 语法不同的语言对之间的翻译:由于将单词和短语的顺序打乱重组对机器翻译引擎来说挑战性高,因此在翻译日语和西班牙语等语法不同的语言对时,可能会遇到一些困难。
- 产品说明:产品说明需要精心打造,清晰地说明产品的功能或优点,语义的传递不容有失。
- 可见度中等、但对准确度要求高的内容:知识库、常见问题解答、警报等。
- 后端元信息,如图片 alt 文本和标题:虽然这些内容的可见度很低,但需要人工确保使用了目标语言的关键词。
在涉及品牌和文化时,坚持使用人工翻译
对品牌来说敏感的、流量高的和需要长期使用的资产最好交由人类专家处理。换句话说,若您的目标是吸引、娱乐或安抚受众时,一般都建议避免使用机器翻译。
在这种情况下,更人性化的翻译是最好的选择,让译员对原文去其形,并用目标语言取其神,也就是人们常说的“创译”。适用的内容类型有:
- 主页
- 广告着陆页
- 博客文章
- 邮件快讯
- 新闻稿
- 搜索引擎优化内容
- 平面广告等
Dive deeper
10 key steps to creating a machine translation strategy
Learn how to design a machine translation strategy that can help your brand connect with international customers at full speed.
好的机器翻译软件都具备哪些素质?
选择最适合机器翻译的工具可以很复杂,因为通用和专用机器翻译引擎都有自己的优势和局限性。
因此,无论您是自己有一套机器翻译流程,还是依赖外部机器翻译服务,最理想的状态都是可以一站访问不同的机器翻译引擎,这样才能充分发挥机器翻译的强大功能。
当使用翻译管理系统管理所有翻译工作时,可实现机器翻译成功部署的三个关键要素:
- 根据内容类型自动选择最佳机器翻译引擎;
- 质量预估,提高译后编辑效率;
- 关注关键指标,优化效率、交付时间和成本节约。
根据内容类型自动选择最佳机器翻译引擎
在处理不同的翻译项目时,流程的复杂程度和类型可能也不同,这也是我们建议将机器翻译作为翻译管理系统的一部分的原因之一。
为了更好地使用机器翻译,您需要能够为不同类型的内容挑选合适的引擎。强大的翻译管理系统都会提供插件或应用程序接口 (API),可以连接到不同的机器翻译引擎。
最先进的系统甚至能够根据人工智能或算法自动进行选择,将扫描到的内容匹配到最合适的机器翻译引擎。
质量预估,提高译后编辑效率;
机器翻译成功实施的一个重要因素是了解译后编辑工作的重点。当您能够实现自动化评价机器翻译输出的质量时,您就可以专注编辑最需要的句段,而不是在原始输出质量已经很好的句段上浪费时间和资源。
机器翻译质量评价功能明确了机器翻译的质量,提高了译后编辑的效率。这也是将机器翻译集成到翻译管理系统中的另一个优势,最先进的系统自带自动化机器翻译质量预估功能,为您确定哪些句段需要更多的关注。
关注关键指标,优化效率、交付时间和成本节约。
如上所述,机器翻译可以提高效率、缩短交付时间,最终达到节约成本的效果,所以对很多企业极具吸引力。然而,并非所有机器翻译引擎都能带来这样的加成,因此,多方对比不同引擎的表现是关键。
一个强大的翻译管理系统可让您实时关注机器翻译项目的用时和费用。在同时使用多个机器翻译引擎的情况下,这些指标是衡量引擎价值的有力指标。译员的工作效率是提高了还是降低了?从长远来看,引擎的效率是否会比其他引擎更高?通过对比这些因素,您可以更好地了解一个引擎的性能。
利用 Phrase TMS 充分发挥机器翻译潜力
当企业需要大规模应用机器翻译时,需要能够提供最高效率和质量的技术。
Phrase TMS 是 Phrase Localization Suite 中专为企业打造的翻译管理系统,非常适合正在成长中的企业轻松驾驭机器翻译。赋能企业加快打入新市场的脚步和效率。
Phrase TMS 用户可以使用专业的机器翻译附加功能和 Phrase Language AI 将机器翻译应用到翻译工作流中,实现快速、低成本、高质量的翻译。
Phrase TMS 完成集成了 Phrase Language AI 的高级机器翻译管理功能,可做到:
- 无需开发,使用完全自动的机器翻译引擎(如 Google、亚马逊、DeepL、微软等全球领先引擎)即可开始翻译。
- 我们为您提供了 30 多个通用和自定义引擎,如果您想使用特定的机器翻译引擎,也可以手动添加。
- 让每一位员工都能享受高质量机器翻译:强大的 Phrase Language AI API 能够最大程度地发挥机器翻译的价值,让公司的每一位员工安全地用上精选的机器翻译。
- 译后编辑工作流可无限制使用机器翻译,进一步提高译员工作效率。
- 根据语言对和文本内容类型自动为您选择最合适的翻译引擎。
- 自动过滤不应使用机器翻译的内容。
- Phrase 专业的机器翻译团队为您搞定机器翻译引擎质量测试、法律及安全性评估、设置和支付,您尽管放心使用。
- Phrase NextMT是第一款专为翻译管理系统打造的机器翻译引擎,可利用翻译记忆库将翻译质量最多提高至 50%。
- 确保机器翻译引擎使用您偏好的术语和正确的单词形式,减少译后编辑的工作量。
- 保留格式和占位符标签,自动对应原文和译文位置。
- 根据过往的质量数据为每个机器翻译句段评分,仅在需要时进行译后编辑。
- 与人工翻译相比,译后编辑可节省高达 55% 的成本。
Phrase TMS 解决方案专为企业级用户打造,自带高级机器翻译管理功能,颠覆机器翻译技术的极限。