机器翻译的发展史

发表于2018年11月28日17:35最后回复于2018年11月28日17:35

3461浏览量

0评论

机器翻译是指不依靠人力，而是利用计算机把一种自然语言转变为另一种自然语言的过程。

背景

机器翻译起源于冷战时期，当时美国需要迅速翻译所掌握的大量苏联资料，但缺少翻译人员，这一需求推动了机器翻译的诞生。

1954年IBM以250个词语，6条语法规则为基础，将60个俄语单词组翻译成英语，此举取得了机器翻译的巨大突破。由于机器翻译要求计算理解语言的常用规则与特殊的语言情景，这种没有边界的穷举被搁置了。

20世纪80年代，IBM提出：与计算机输入语言和词汇不同，他们试图让计算机自己估算，为了翻译另一种语言中的某个词A，英语中的某些词B、C、D能够分别表示其准确含义的可能性，然后将可能的词选定为翻译的对等词。

这一思路把翻译问题变成了一个基于数据库的数学问题，随后IBM在名为Candide的项目中花费了约十年的时间，成功的将300多万英语资料翻译成了法语。然而由于计算机能力、数据采集和算法的限制，计算机翻译并没有达到“智能”水平。

谷歌翻译开创大数据翻译时代

2001年，谷歌公司开始研究机器翻译，跳出了两种语言相互对等匹配的传统文本翻译思路，用算法代替语言学家，用数据代替语言本身。

谷歌摒弃了一个个孤立语法组织的思路，而是将不同种类的语言视为具有内在相关性的“数据”。

基于互联网上海量数据，构建了更大、更庞杂的语料数据库，以此为基础进行数据之间的“匹配”。2006年，谷歌发布了包含上万亿条信息的各类语言翻译的语料库，规模为之前的数百万倍，总量相当于950亿句英文。

由于自然语言的复杂程度，难以构建一个完备的规则体系来高效地进行语义转换，因此谷歌诉诸于统计学和机器学习理论，以上万亿条数据为基础，利用分布式强大的计算能力，设计统计模型并进行机器训练，令机器翻译在效率和准确度方面产生了飞跃式的发展。

机器翻译时，利用算法来比较各种平行文本作为翻译结果的可行性，甄选最贴近真实情况的文本，从而最大限度的反映语言的本意。

【机器的训练与翻译过程】

基于海量数据的机器翻译的训练与翻译的过程，机器学习算法通过训练得到模型，在语料库中搜索其他语言中可能与翻译目标句相互匹配的句子，通过模型判断匹配程度，将匹配程度最高的句子作为翻译结果。

谷歌吸收它能找到的所有翻译资料，甚至包括互联网中的一些废弃内容都囊括在内。互联网中正源源不断地产生新的语料和翻译资源，谷歌能够从中汲取新的内容，不断提升语料库的规模。

在大数据时代下，可以通过ForeSpider数据采集系统对互联网上的海量数据进行采集，建立完备的语料库，并且通过数据挖掘工具进行文本挖掘，智能挖掘出文本的特征信，为未来智能机器翻译发展添砖加瓦。

在未来，机器翻译领域将达到不同语言的人实现无障碍沟通。大数据时代的到来对于各行各业来说都是一次革命，翻译领域也是一样，大数据将使翻译领域达到更高的水平，让全球沟通不再困难。

评论区