WITTA翻译技术教育研究会
Translation Technology Education Society

冯志伟:关于机器翻译行业发展的三点建议

关于机器翻译行业发展的三点建议

-国家语言文字工作委员会文字应用研究所研究员冯志伟教授


机器翻译这个行业,现在已经发展得不错了。机器翻译大致起源于1954年,美国乔治敦大学在IBM公司支持下进行了第一次机器翻译,把俄语翻译成英语,当时翻译了60多个句子。这些是挺复杂的句子,是通过语言学规则来翻译的。在这以后,我们中国也有很多探索。其实,机器翻译发展得很早,也许机器翻译家的工作,启发了一些专家想到了人工智能,人工智能是比机翻还晚两年的概念,但是现在普遍把机器翻译作为人工智能的一个分支来看,但从根本上说机器翻译是比较先进的。但是后来人们实践了以后,发现这个问题很大,因为是用计算机语言做的,语言是人类非常复杂的技能,所以整个的效果不好。在1959年我们中国语言所跟计算机所合作,把俄语翻译成中文作为国庆十周年的献礼,当时翻译了9个句子。9个句子已经不容易了,因为是计算机而不是人来翻译的。从此以后,机器翻译进入历史舞台,它是不是有社会价值,这本来是学者们作为一种研究方向来看待的。这个东西能不能为人民服务,能不能够反映社会价值?实际结果看来并不太好,而且译文质量太差。翻译家起码是我们根据已有的语料有关的句子,然后通过这个句子进行语言分析,然后形成公式来做。但另一方面,语言是无穷无尽的,所以根据有限的语料翻译家要准备几百几千句来翻译,是不是能够覆盖其他的语言,还是一个问题。所以在这种情况下,机器翻译的长期应用就是很大的研究课题了。

在很早以前,我自己研究机器翻译也是完全出于兴趣,人类语言障碍那么严重,能不能做些事情,也没有想到机器翻译的社会价值和将来能够成功,成为新译公司的项目。机器翻译的发展,长期以来处在一种徘徊的状态。虽然后来有了统计办法,就是我们不再通过语言学家的规则来翻译,而是用统计方法来做,这个思想在上世纪90年代IBM公司实践过,结果是正确率可以达到70%左右。70%的正确率显然是不行的,因为有30%的错误,翻译结果是不可行的。到了2012年至2014年,机器翻译在计算机基础上有个重大的进步,就是神经网络,加拿大一个学者他提出叫做神经语言模型,用神经网络来翻译,把零散的语言符号变成词向量进行运算,效果比较好。机器翻译的正确率一下子提升到80%,像法语、西班牙语转译英语能够达到90%以上。一般来说,因为语言是个复杂的问题,能够达到90%很好了。人工翻译、专家翻译,也不是都对,仍然是有错误的,所以我认为机翻在一般情况下表现不错。

前一段时间,我在德国教书,我在德国学校里面做的事,包括我讲的话有学习相关的问题,当时是用德文讲的。有一些记录在网上传播,有人就说冯老师你讲的德文能不能翻译成中文?我当时讲了1个多小时,太长了,我都80多岁了,翻译不动了。但是后来我试一试用机器翻译来做,翻译的结果确实很好,后来再花了5分钟改改,大致可以看了。所以我认为机器翻译到现在这个时代,是真正的产业了。新译研究院在这种情况下成立,从产业的关系来看,其实是抓住了一个时机,我觉得是非常好的。现在国际上很多这些机器翻译公司已经可以为用户服务了,机器翻译主要应用于英法、法英互译,汉英互译的正确率在国际机器翻译大赛评测会上达到83%左右,还达不到英法、法英互译的水平,但是83%我认为已经很了不起了。


       机器翻译是从语料库当中通过机器学习的方法获取知识,重点在于中间环节的错误与错误的积累。中国也有很多公司关注这个问题,在这样的情况下,成立新译研究院来关注这个问题,提供一些技术上和标准方面的支持是非常好的。要做的事情,刚才谢寿光院长也做了一个报告,其中有几项我觉得是需要关注的。

一个是评测的问题。机器翻译的评测,长期以来没有一个比较好的标准。我因为长期从事这个工作,参与过813、973的国家标准项目,当时的评测基本上采取人工评测的方法,也就是专家来打分。这样的评测不太准确,而且带有主观性,因为专家的思想、要求不一样。那么后来就出现BLEU,这个指标是美国人提出来的,作为机器翻译的一个评测指标,基本上完全自动化,把原文和译文拿来就能评,可能测算的结果跟我们人的感觉评测的结果也是差不多,好的翻译不会出现坏的评分,坏的翻译也不会出现好的评分。这种评测,我觉得有的时候还是会出现一些问题,可能会把结果搞错。那么如何来做评测?大部分人其实在2007年左右采取了BLEU跟人工评测相结合的方法。刚才谢院长说我们要关注评测,提出一些比较好的、能够得到世界公认的评测标准,以后如果世界各国都同意,说中国这个办法不错,这个就很好。从国际评测上看,我认为评测还是很大的问题,这是一个问题。
另外一个问题就是少数民族语言。因为现在英语翻译成汉语,翻译的正确率基本上还可以。但是在我们国内,例如藏语到汉语、维吾尔语到汉语的翻译,相对于需求来讲,供给不足,而且技术上也有些问题,这里面有好多事情要做。少数民族语言的机器翻译,关键是我们得想办法收集标准的少数民族语言资源,在这方面我们要想法子填补一些空白。


       另外我觉得在做机器翻译的时候,人的因素可能还是很大,不要太依赖机器,因为它是从数据上面算出来的,其实是没有智慧的,它根本不知道内容。机器翻译是先设置好程序,然后力求整个程序不出错,完全靠机器运行。机器根本就不懂语料,所以这个时候可能会出现很多错误,甚至是一些比较严重的错误,这是由于机器没有智慧造成的,是通过算法翻译出来的。所以这个时候,我觉得人工因素要考虑,比如说一个是译前编辑,例如中文翻译成英文,我们介入加工。根据我们过去的经验,中文里面往往没有主语,我们得把主语填平,因为外语没有主语动词就编不出来,没法解决。而中文可以没有主语,中文中出现动词我们就知道什么意思。所以我们要把主语加进去,我觉得在这一方面可以提高。另外英文有复合性,例如汉语的“一看就会、一用就错”,这样的句型翻译成英文是很难的复合句型,所以把这个汉语的紧缩复合句扩充成英语的正常的次序(”if…., then….”)。还有就是译后编辑(Post Editing, PE),就是翻译完以后我们给它修改一下,改进整体效果。所以,我们在相信神经网络机器翻译的同时,还要适当地注意人工因素,适当地考虑译前和译后编辑。

       现在我认为翻译确实是个很大的产业。据有关报告,国际翻译市场大概有500亿美元的价值。中国的翻译市场大概是300亿元人民币。我的想法是我们可以做一些事情:一个是机器翻译标准的制定,我们能不能提出一个比较好的标准;另外就是在语料的收集方面,我们要增加收集语料的工作量,而且注意收集一些小语种的语料;最后,我们可以考虑把人的智慧加进去,与机器算法融合。


(摘自冯志伟在新译研究院新春座谈会上的讲话)