发表于2018年6月28日17:35最后回复于2018年6月28日17:35

机器翻译的发展史

1362浏览量

0评论

机器翻译是指不依靠人力,而是利用计算机把一种自然语言转变为另一种自然语言的过程。

背景


机器翻译起源于冷战时期,当时美国需要迅速翻译所掌握的大量苏联资料,但缺少翻译人员,这一需求推动了机器翻译的诞生。

1954年IBM以250个词语,6条语法规则为基础 ,将60个俄语单词组翻译成英语,此举取得了机器翻译的巨大突破。由于机器翻译要求计算理解语言的常用规则与特殊的语言情景,这种没有边界的穷举被搁置了。


20世纪80年代,IBM提出:与计算机输入语言和词汇不同,他们试图让计算机自己估算,为了翻译另一种语言中的某个词A,英语中的某些词B、C、D能够分别表示其准确含义的可能性,然后将可能的词选定为翻译的对等词。

这一思路把翻译问题变成了一个基于数据库的数学问题,随后IBM在名为Candide的项目中花费了约十年的时间,成功的将300多万英语资料翻译成了法语。然而由于计算机能力、数据采集和算法的限制,计算机翻译并没有达到“智能”水平。

 

谷歌翻译开创大数据翻译时代


2001年,谷歌公司开始研究机器翻译,跳出了两种语言相互对等匹配的传统文本翻译思路,用算法代替语言学家,用数据代替语言本身。

 谷歌摒弃了一个个孤立语法组织的思路,而是将不同种类的语言视为具有内在相关性的“数据”。

基于互联网上海量数据,构建了更大、更庞杂的语料数据库,以此为基础进行数据之间的“匹配”。2006年,谷歌发布了包含上万亿条信息的各类语言翻译的语料库,规模为之前的数百万倍,总量相当于950亿句英文。

由于自然语言的复杂程度,难以构建一个完备的规则体系来高效地进行语义转换,因此谷歌诉诸于统计学和机器学习理论,以上万亿条数据为基础,利用分布式强大的计算能力,设计统计模型并进行机器训练,令机器翻译在效率和准确度方面产生了飞跃式的发展。

机器翻译时,利用算法来比较各种平行文本作为翻译结果的可行性,甄选最贴近真实情况的文本,从而最大限度的反映语言的本意。

【机器的训练与翻译过程】

基于海量数据的机器翻译的训练与翻译的过程,机器学习算法通过训练得到模型,在语料库中搜索其他语言中可能与翻译目标句相互匹配的句子,通过模型判断匹配程度,将匹配程度最高的句子作为翻译结果。

谷歌吸收它能找到的所有翻译资料,甚至包括互联网中的一些废弃内容都囊括在内。互联网中正源源不断地产生新的语料和翻译资源,谷歌能够从中汲取新的内容,不断提升语料库的规模。

在大数据时代下,可以通过ForeSpider数据采集系统对互联网上的海量数据进行采集,建立完备的语料库,并且通过数据挖掘工具进行文本挖掘,智能挖掘出文本的特征信,为未来智能机器翻译发展添砖加瓦。

在未来,机器翻译领域将达到不同语言的人实现无障碍沟通。大数据时代的到来对于各行各业来说都是一次革命,翻译领域也是一样,大数据将使翻译领域达到更高的水平,让全球沟通不再困难。


发布新帖

私信

举报