好,同学们,在这一节中呢,我们讨论一下机器翻译的历史和面对的挑战。
所有的事情啊,只要有需求,就不乏冲锋陷阵的人士。
那么机器翻译,作为一个人类语言知识,解决语言障碍,
把人类的知识能够传播,这样一个伟大事情,
那么冲锋陷阵的人就不要太多了,这种从需求牵引,
引发的热情,然后,投入了金钱、 投入了时间、
投入了 一切,但是,换来的未必一定是成功,因为很可能因为是技术原因,因为
现在的水平,研究水平还没有到达能够解决这个问题的时间。
于是失败了,但是失败,也并不就意味着终点,失败 很可能是让我们反思,我们遇到的方法,
我们使用的方法,做过的事情是不是有问题,然后重新再出发,
再投入,于是或许能够取得成功,那么或许是另外一种
失败,但这种失败,一定比之前的失败会有更大的 改善和收获。
机器翻译完全遵循了这条路径。
那么,说起最早的机器翻译的一些研究,
我们可以推到1930年,这是真正的机器翻译,看看
这个专利的照片,这是一个完全机械齿轮带动的一个翻译机。
那么,计算机发展起来之后, 机器翻译才真正的走向可用或者说基本可用,
谈论起机器翻译的历史,很多人有不同的说法,但是, 比较公认的,是把这个美国 ALPAC
报告的发表 作为一个分水岭,之前作为启蒙期和第一次浪潮,
那么之后是冷静的反思和再出发。
ALPAC 报告之前,大家觉得计算机,哎呀能力迅速的在增加,
处理语言文字的功夫也在增长,于是大家想,哎呀,机器翻译该做了。
这时候,二战结束了,那么苏联人和美国人开始冷战。
美国人对于获得俄语文献的这种需求开始变得强劲,于是俄英机器翻译系统
这个研究是一个很主要的一个方向。
在这段时间之内呢,有很多的成就, 也有很多的问题,其中一个经典的笑话,这个是真是假有待考证,
就是汉语大概说的是心有余而力不足,那么英文是The spirit is strong,
but the flesh is weak 而变成俄语之后,却变成了 伏特加酒是好的,但是肉是臭的。
这个彻底把意思给弄拧了,这是一个笑话,但是类似的这些问题, 就,变成了这
ALPAC 这个研究报告所揭示的一个,主要的一个主题,就是说
现在的机器翻译的能力和在眼见的,可预见的将来,都不可能
做到机器翻译,于是,所有的研究基金撤退, 呃,研究者转行,大家进入了一个冷静和反思的时期。
那么到了,但是这段时期,并不是说所有人都不干活了。
欧洲,是一个研究的主要的一个地域,我们知道欧洲的语言繁多,
它们之间,国家交往又非常频繁, 欧盟的诞生对于语言的这个需求压力,肯定是,只会
越来越强,那么欧洲人对于这个机器翻译研究呢, 不像美国人那么悲观,他们不断在做。
日本人和 英语世界的这个交流也特别广泛,所以
日本人也没有停下自己的脚步,在80年代都取得了一些成就,到了90年代,这
统计式的机器翻译,开始展露头脚,这是 IBM
科学家的功劳,那么 IBM 科学家提出了最基础的想法,
然后几所大学的老师,他们凑在一起,开了一个研讨会, 然后把
IBM 的论文所提出的方法重新实现了一遍,而且做了一个开源实现。
从此之后, IBM 提出来的方法,被广为世人所公认。
那么,目前来说呢,机器翻译方法占据了绝对的主流,其中一些很著名的科学家, 被
google 公司,在2003年04年,被招安了之后,
那么 google 的机器翻译质量,目前看起来是相当高的。
但是,并不是说其他公司做的就一定会很差,比如像 现在微软公司做的,也已经明显地得到了改善了。
那么是不是说只有像 google 或微软这种大公司,才能做好
机器翻译呢,也不是,如果要说是完全通用的话, 可能因为受制于就是说机器能力啊、
语料数量啊 一般的小公司可能很难做,但在一些专业的一些领域,
很多小公司做出来的只适用于某个专业领域的机器翻译系统,它的翻译 质量,其实是比
google 和微软做的通用机器翻译系统,翻译成专业语料
做的还会更好一些,那么这个原因,我们在下面的课程中呢,也会进行一些讨论。
那么说起来机器翻译,现在目前到底是一种什么状态呢?
可以跟大家这么来讨论问题吧,第一个是政治经济
这种全球化的这种趋势,还有互联网的这种广泛的运用。
对于语言鸿沟的这种,语言障碍的这种 克服的渴望,大家是越来越强烈了。
那么,机器翻译可以用在什么地方呢?机器翻译可能会用在我们,
方方面面,这个不见得只是我们的语言服务,
我们所讨论的这块领域,更多的获取信息,这是机器翻译最大的一个 用途,在前一小节中我们已经举了几个例子。
那么另外一个例子呢, 就是说,如果你要是
面对着现在的这种多语言的内容有兴趣的话,
如果你孤立无助,身边没有各种各样的语言专家,那你 能够求助的是什么,只有机器翻译。
一本词典,比机器翻译的能力要差的太远了, 那么,机器翻译现在目前,究竟达到什么水准呢?
我想公平的说,机器翻译依然停留在能帮 助人类获取其他语言所承载的
片段的、 不完整的信息,这种状态,但它的成本可以做到很低。
如此而已,但是机器翻译不会只停留在这状态上面,
只要我们不断的,去向前努力,总有一天,机器翻译可以变为 现实。
那么各种类型的语言,现在看起来也不再是一个障碍,比如
说,一些很偏门的一些语言,现在做机器翻译研究的人也很多,然后
也有这样的实用化的系统慢慢在产生,但是因为受制于语料库
规模大小,可能和主流语言之间的转换还有很大的差距就是了。
那么机器翻译究竟适用于哪些领域?这个跟刚才的问题,其实是完全是相关的。
那么,粗糙的快速获取信息,这显然是机器翻译最重要的一个 研究领域。
网站浏览这是一个方面,曾经讲一个笑话,也是一个真实的故事了,
我的一个朋友接了一个翻译任务,要求在一天之内翻译三万 字,而他就一个人和一个助手,于是他们,
拿机器翻译,给迅速的给翻完了,然后 用人工调整了一下子这个标题,就交付了。
大家可能想,哎呀,这个我这朋友绝对是最不靠谱的译员了。
这个译员,那个客户一定会把他骂死才完,
不是的,客户高兴的不得了,因为为什么客户对这样的一个结果,完全
不可忍受的一个结果这么高兴呢,因为这个客户的,是在进口一个机器,
进口的机器被海关扣住了,理由是没有中文说明书。
于是他们赶紧翻译了一本,翻译了一本中文说明书,
然后交给海关,告诉海关,我有中文说明书了,我可以过关了。
那么像这样子的一个需求,是一个可以当成笑话来听的一个真实故事。
呃,却揭示了我们机器翻译,其实还是 有些用处的。
那么,我们 适用于的领域,大家可能都比较公认的,可能更适合于像这种科学技术的这种文献,
说明书啊,这种科技文本。
那么,还有一个 就是,提醒大家的,机器翻译,就算是没有统计机器翻译,
在60年代末,就做到了非常好的翻译质量的有一个受限领域,大家可以猜一猜,
是哪个领域,能做到在60年代那么差的计算机下,就做到了非常好的,甚至百分之九十以上- 的正确率, 告诉大家,在加拿大的天气预报。
加拿大是双语的,英语和法语,那他们的天气预报,
转换,完全,天气预报就那么几个词汇,就那么几种句型,于是写好一个规则库,很容易
这个,在这么一个狭窄的受限领域之内, 机器翻译展示出了,它的非常大的一个魅力。
呃,机器翻译还有很多种变形,比如说可以进行一些译后编辑,
那么,对机器加工结果继续进行加工,然后 提高它的可用性,直到让机器翻译结果呢达到
人工翻译的这种水准,我刚在前节中说,这个专业译员不喜欢而初级译员喜欢,但事实上呢
这个机器很多程序也会喜欢这样 的机器翻译做出来半吊子的翻译结果,比如说跨语言的信息检索。
那么,跨语言信息检索它的要点是你输入的是你熟悉的语言,
但检索结果可能是,比如说你不懂日语,但是我现在对日语的某些文献特别感兴趣,
我用中文或英语来输入,那么输出的结果,检索出来的是日语的 文献,输出的结果,我看不懂日文,你得给我翻译成中文或者英文。
那么,像这种跨语言信息检索对机器翻译的,实际上说没有机器翻译也就没有这种跨语言- 检索了。
那么,机器翻译除了比这些价钱低这些之外,哪些地方比人好呢?
这个机器翻译最重要的几个特点,速度快,
有强大的,超级大的一个记忆库, 比如说一个人想背诵几万个句子可能就很吃力了,
而一个机器可读的语料库轻轻松松地放下几千万个句子,没有任何问题。
机器做翻译永远不会疲倦,永远不会抱怨,永远不会跟你讲工资。
只会随着你翻得越多,只会服务费的价格只会越来越低,而不会越来越高。
那么,机器翻译改进速度可以是非常快的。
虽然整体的发展速度还是很有限,但是 把一个领域的机器翻译系统迁移到另外一个领域的话,
最快的话也许就几个小时的时间就可以适应一个新的领域,但是对于一个人的译员说来
想做领域迁移,恐怕是非常难的一件事情。
在传统的认知里面, 呃,文学类艺术类这些文字呢是完全不适合于机器翻译的,
这几乎成了一个共识,甚至有人专门写博士论文来讨论这一点, 说机器翻译到底适合于哪些不适合于哪些,他做了很多的结论。
那么,真相究竟是怎样呢? 也就是说现在计算机发展到现在,我们已经开始
自然而然的处理啊,像人类的情感啊,这种的计算过多了。
我们已经开始试图深入地挖掘一个词汇后面所隐含的语义,
比如说,我拿一个情感分析系统来监视一个汽车论坛,
或者一个房地产论坛,然后把这个特定的汽车
型号的这个讨论和对某一个房地产公司的讨论 全部提取出来,然后分析,究竟大家对这个车子
的哪方面持什么样的态度,对这个房地产公司的哪 方面的服务或哪方面的东西持什么样的态度,
然后把这统计结果交给汽车公司和房地产公司的老板,供他们进行决策使用。
那么,像这样的 系统已经是投入实际运用了,每天在运转之中,
那么像这样的情感计算和我们机器翻译究竟是不是
有关联呢?肯定是有关联的,虽然现在目前还没看到一些直接的研究成果出来,
但是我相信呢,在未来,计算机能够涉足于人类
情感的这些分析和计算,然后能够把这个艺术类的文字
也能够进行翻译和处理,这是还是可能的,是可期待的一件事情。
呃,永远技术永远在改变,
我们不要凝固的用一个不变的一个态度来看待这些
技术的发展,特别是信息技术,这个发展速度之快可能完全超过大家的