中国机器翻译的世纪回顾(董振东) （TR）

centrish · 2013 年4 月 29 日 09:57

发表于 2004-3-28 17:16:36 |只看该作者海上钓鳌客

中国机器翻译的世纪回顾(董振东)[table=98%]
[tr][td]在世界范围内，机器翻译的研究与开发已经走过了50年的历史。我国机器翻译的研究开始于1956年。1959年，中国的机器翻译研究者成功地进行了中国首次机器翻译试验表演。中国是世界上第五个进行这种实验的国家。今年应是中国的机器翻译研究的40周年。在这时刻来作一番世纪回顾，更有其纪念的意义。

在进行技术层面的回顾之前，我愿就宏观方面做点介绍。首先，中国的机器翻译研究从一开始就得到了国家的高度重视。早在1956年它便以"机器翻译 "/“自然语言的数学理论"列入了当时的《科学发展纲要》。以后则列为"六五”、“七五”，以及"863"等重大科研项目。中国的机器翻译研究虽然也有过10年的停滞，但与国外不同，并不是由于对机器翻译研究本身的中断投资引起的。其次，中国的机器翻译研究从一开始就具有多单位，多方面不同知识结构人员的协同攻关的特点。这是这项研究自身的特点所决定的，它需要至少计算机科学、数学、语言学等多方面知识。

70年代中期，我国机器翻译研究从停滞走向了复苏，是协同攻关的特点体现最充分的时期。当时在中国科技情报所的组织下集中了许多部委的研究人员在社科院语言所的专家的具体指导下协同攻关。当时的理想是通过这样的大协作，开发出系统，培养一批人材，然后把系统带回各自的单位投入使用，并在使用过程中继续完善。虽然遍地开花的良好愿望后来没有实现，但通过五年多的通力合作，开发出了系统，培养了人才和积累了经验。在这一时期，还开始向国外派出人员学习和引进技术，并与当时已在国际享有盛名的机译研究机构进行了交流。社科院语言所开始培养机器翻译专业研究生。在这时期在情报学会和后来中文信息学会下成立了专业委员会，并曾定期地举行全国性的学术研讨会，还曾出版机器翻译专刊。

80年代中期到90年代初期是我国的机器翻译研究自复苏以来第二个重要时期。在这一时期里，产生过两个在中国机译史上具有重要意义的实用化系统。它们分别是军事科学院研制的"KY-1"英汉机译系统，它获得了国家科技进步二等奖，后来被开发为"译星"，成为中国第一个商品化系统，另一个是中科院计算所研制的"863-IMT"英汉机译系统，它获得了国家科技进步一等奖，它的技术带来了十分可观的效益。这两个系统也是多单位、多方面人材通力合作的结果。在这一时期里还有一个机译系统是不应被遗忘的。它就是由邮电科研院研制的"MT-IR-EC"，这是一个非常实用的通讯题录系统，人们利用它翻译出版通讯题录刊物，从而使刊物的发行效率得到很大的提高，它因此成为了第一个荣获国家科技进步奖的机译系统。在这一时期里，中国参加了由日本发起的亚洲五国机器翻译研发的合作项目。国内近10个单位参加了这一长达7年的国际项目。这次的大协作对于培养人才、传播技术、积累资源(如词典等)，以及使中国的机译研究走向世界，都有着深远的影响。另外，这个时期又正值"七五"，它给了更多的单位和研究人员参与机译研究的机会。在此期间，清华大学和南京大学研制了实用的日汉机译系统。中国科大在机译通用工具方面进行了富有成果的研究。北京大学研制成功了机译系统自动评估系统，这在国内外尚属首例。

90年代初期至今，中国的机器翻译走入了快速发展的时期，出现了许多商品化系统。近期的机译系统大体上有这样一些特点：多数配有大规模的多种领域的专业词典，多数能在网上运行，有相当不错的方便用户的界面。新的应用领域的机器翻译研究，如对话翻译系统的研发等也已开始。中国的机译研究的水平在总体上从一开始就不低，如今在PC产品、网上系统的开发方面与世界上机译研究发达的国家相比并不逊色。

中国机器翻译的占主流地位的技术策略和技术路线是：转换法，基于规则的，尤其是实用型机器翻译。世界其它地方也是如此。在回顾总结半个世纪的经验时，我想对于实用系统来说，有一些基本技术现在应是可以肯定的。

机译归根结底是一个语言处理问题，系统需要强大的语言知识的支持；首先机器词典要有足够的词汇量，常用词语以英语或汉语论应不低于4万；为词典中每个词语给出的信息愈丰富愈好，一般分为词法、句法和语义信息。我国甚至早期的系统在这方面已有明确的体现，如当时有"类属组"三级信息。

语言规则的获取来自真实的、尽可能多的语料，而不只限于教科书的例句。中国的具有代表性的系统都是这样做的，如70年代在中国科技情报所开发的两个题录系统是以5000条双语冶金题录为调查语料的。邮电科研院系统的词语和语法规则都来自于对INSPEC磁带数据的调查。随着近10年来语料库利用的发展，更加充分地但又是清醒地利用好语料库，善于从中获取知识的方法是很可取的。另外，大规模语料库对于机器翻译所必需的词语正确搭配的遴选也是很有效的资源。

描写性的语言规则会比过程性的语言规则更好。后者由于同加工过程紧密相关，会增加编写规则的难度和系统调试的难度。

源语言分析中采用多结点、多叉树、多标记的中间表达被证明是可取的，它优于简单标记的方法。

把语言数据同程序分开，是普遍采用的方法。这样做便于系统的调试、完善，有利与系统的扩充。

系统的友好界面是系统的重要的组成部分，虽然它不算是机译系统的核心，但它是不应该被轻视的。

随着因特网的出现和发展，机器翻译的应用前景将更为诱人，也会带来更好的商机。但应该提醒的是：今天机译系统的翻译质量还很差。50年来译文质量应该说还未取得实质性的突破，这在世界范围内都如此。机器翻译不但是一个语言处理问题，也可以说是一个知识处理问题。没有点点滴滴的、艰苦的知识和经验的积累，是不可能开发出实用的机译系统的。现在之所以有的开发周期缩短了，一则是因为开发者有长期的经验积累，一则是得到可以共享的资源，而绝不是有什么 “绝招”。实际上机器翻译要能真正满足人们的需求，还有很长的路要走。展望下一个世纪，我们做这样的预测，实际上也可以说是我们应该争取的突破点。

源语言分析将是大语境的、基于理解的。如今的分析都是孤立的一个句子一个句子进行的，即单个句子为处理的基本单位。未来的分析将是以句群为单位的。如今的分析求出的是句法关系树，充其量是概念的语义关系图，而不是对文本给出的意思的求解。有人说，简单的都做不到，那么复杂的就更不可能了。其实不然，正是"简单"了，有些问题才变得无法解决的。现在认为"简单"的，几十年前，不是很复杂的吗？

加强基础研究，特别是常识性知识库的建设。有的学者提出建设知识词典，利用它进行基于理解的分析。笔者经过十多年的努力建立的大型知识系统《知网》，今年已上网供研究免费使用。它引起了海内外学者的广泛注意，并已有人在它基础上开始进行新的探索，如上面介绍的基于理解的分析以及新的排除歧义的方法。请读者浏览www.keenage.com网页。

机译系统将出现高度专业化的趋势。这种系统是为某个特定领域进行调试的，它实际上具备较充分的专业知识，而不仅仅是只有一本专业词典而已。

基础性资源的共享，对于类似于机器翻译这样的研究来说是大趋势。如今我们可以在网上获得许多很宝贵的有关英语的、日语的资源，也有繁体中文的资源。(可惜简体中文的太少了。)因特网提供了一种知识资源共享和知识产权保护的全新的概念和方式。在近两次世界机器翻译高峰会上日本各大计算机公司都介绍了它们如何共享共建机译系统的专业词典的做法，值得我们借鉴。在当今网络时代，陈旧的知识资源保护手段到头来封杀的不是别人而是我们自己。

机器翻译系统的高度模块化将有可能带来未来的机译系统的组件化。这样机器翻译系统的研发周期有可能大大缩短。开发者可以把更多的力量放在突出自己的特色上和专门化上。

http://www.keenage.com/html/c_index.html

[ 本帖由海上钓鳌客于 2004-3-26 23:05 最后编辑 ][/td][/tr]
[/table]

centrish · 2013 年4 月 29 日 09:58

发表于 2004-8-16 19:57:59 |只看该作者 wxm92

RE:中国机器翻译的世纪回顾(董振东)[table=98%]
[tr][td]版主，请问作者的最后一句话－－－"开发者可以把更多的力量放在突出自己的特色上和专门化上。"具体是什么意思？按我的理解，作者是不是在鼓励专业自然语言理解的开发和研究，也就是说把语料范围限制在某些专业领域的自然语言，开发相应的实用性的自然语言理解系统？不知你的理解如何？请指教！！！！！[/td][/tr]
[/table]

centrish · 2013 年4 月 29 日 09:59

发表于 2004-8-17 01:24:17 |只看该作者海上钓鳌客

RE:中国机器翻译的世纪回顾(董振东)[table=98%]
[tr][td]
“近期的机译系统大体上有这样一些特点：多数配有大规模的多种领域的专业词典，”

“机译系统将出现高度专业化的趋势。这种系统是为某个特定领域进行调试的，它实际上具备较充分的专业知识，而不仅仅是只有一本专业词典而已。”

“基础性资源的共享，对于类似于机器翻译这样的研究来说是大趋势。”

是不是可以这样理解？
打个浅显的比方
汽车生产也是模块化了
发动机、方向盘、刹车……是每辆车都有的一些基本部件
以后机器翻译模块化以后，机译系统也会生产出一些标准化的组件
至于厂商是把汽车做成小轿车、面包车还是大卡车就是各自的特色了
同样，这套机译系统是给医学、语言、物理、电子还是计算机用的？就是各自的专业特色了
机译模块化以后，就可以节省更多的时间去研究各个领域独具特色的技术了
[/td][/tr]
[/table]

centrish · 2013 年4 月 29 日 10:00

发表于 2004-8-17 20:34:30 |只看该作者 wxm92

RE:中国机器翻译的世纪回顾(董振东)[table=98%]
[tr][td]谢谢版主，我想我对作者的意思和您的解释基本上已经了解！

但是我在我的上个回贴中还没有把我想要说的内容完全写出来。我下面的内容更多是关注自然语言理解方面，而不是机器翻译方面的。
首先我声明，就像我在这个论坛的级别是“新手上路”一样，我也是中文信息处理这一领域的初学者。不对的或者不严格的地方还请各位多多指正！！！！
据我这段时间的学习，我觉得现在大部分资料上讲的机器翻译的方法，总的一个思路就是，先输入原始语料（我们先考虑句子），然后生成它的句法树（或者其他形式化的方式），最后把句法树映射成其他语言，就算完成翻译过程了。整个过程可以分成两个部分，其一是自然语言理解的过程（具体指的是生成句法树的过程），其二是语言转化的过程。
如果我的上述理解基本正确的话，那么我认为，现在所谓的自然语言理解基本上形式上的理解，离真正的理解还相差甚远。
比方说现在要让计算机理解这样一句话：“C是AB的中点。”我想这是一句比较简单的句子，现在的翻译系统说不定也能翻译的很好，但是从计算机理解层面，只要它能判断出：“C”是主语，“是”是谓语，“AB的中点”是宾语，其中“AB”是定语，“中点”是宾语中心语就可以了。但是在数学领域里，这句表达实际上是个关系，说明A、B、C三点之间的一个关系。如果以（x1,y1）、（x2,y2）、（x3,y3）分别表示A、B、C三点的坐标的话，这个关系就是表示成后面两个方程式“x3=(x1+x2)/2; y3=(y1+y2)/2”，这种方程式的语言，现在的计算机是能够理解的。从某种角度来讲，计算机对这句话的理解不是停留在前面的语法结构层面，而是到了后面这种程度才能称之为真正理解了这句话的含义。
当然不同的情况对计算机理解的程度要求不同，如果纯粹为了把它翻译成英文，我们只要从语法结构层面上理解它就可以了。但如果要求计算机进行几何作图，显然必须要求达到后一种情况。这种情况也可以看作是机器翻译范畴，它要求把自然语言翻译成计算机能理解其本质意义的语言。但更确切的说是应该是自然语言理解范畴了。可以说上一个帖子中所说的专业领域自然语言理解也是指的这种程度的理解。
所以我认为如果作为某些专业应用软件辅助成分，在一个非常受限的语言环境里，开发一个理解程度非常高的专业自然语言理解系统应该是比较实际而且也能够带来具体应用价值的一件事。
欢迎大家对我这些话品头论足一番！[/td][/tr]
[/table]

centrish · 2013 年4 月 29 日 10:00

发表于 2004-8-19 19:59:41 |只看该作者盛金标

RE:中国机器翻译的世纪回顾(董振东)[table=98%]
[tr][td]你所提的这个例子与Searle (1980）的Chinese Room这个实验相似。他提出了strong AI 和
weak AI 的概念。具有Weak AI的机器翻译仅仅是模拟思维，并非真正的理解，就是你所说的’停留在语法结构层面’的理解。真正的机器理解即语义理解被称为 strong AI.

[indent]wxm92 于 2004-8-17 20:34 写道：
如果我的上述理解基本正确的话，那么我认为，现在所谓的自然语言理解基本上形式上的理解，离真正的理解还相差甚远。
比方说现在要让计算机理解这样一句话：“C是AB的中点。”我想这是一句比较简单的句子，现在的翻译系统说不定也能翻译的很好，但是从计算机理解层面，只要它能判断出：“C”是主语，“是”是谓语，“AB的中点”是宾语，其中“AB”是定语，“中点”是宾语中心语就可以了。但是在数学领域里，这句表达实际上是个关系，说明A、B、C三点之间的一个关系。如果以（x1,y1）、（x2,y2）、（x3,y3）分别表示A、B、C三点的坐标的话，这个关系就是表示成后面两个方程式“x3=(x1+x2)/2; y3=(y1+y2)/2”，这种方程式的语言，现在的计算机是能够理解的。从某种角度来讲，计算机对这句话的理解不是停留在前面的语法结构层面，而是到了后面这种程度才能称之为真正理解了这句话的含义。[/indent]
[/td][/tr]
[/table]