当前位置:主页>机械翻译> 一种新的机器翻译模型
一种新的机器翻译模型
来源:作者:本站

中国中文信息学会理事长,中国工程院院士陈力曾说过:“机器翻译搞了几十年,但至今未能达到可供实际应用的水平,其主要原因正是自然语言理解没有获得根本性的突破。任何科学上的突破都需要非常规的思维即扩散性的求异思维。”本人也对机器翻译进行了多年的研究,建立了一套与目前机器翻译模型完全不同的机器翻译模型。不知是否合理,放在网上请大家指导,请多提宝贵意见。

1、知识库:不管什么样的自然语言处理系统,也不论使用什么样的策略方法,一个好的语言知识库是其不可或缺的基础,没有合理的知识库支持计算机是无法理解自然语言的。要建立知识库,就需要知道知识库的结构、知识库存储哪些信息、如何获取知识。其中知识库的结构和知识库的存储内容是知识库建立的关键,只有知道了这些,才可以研究如何获取知识,否则获取的知识就是没有根基的。然而,现在的自然语言研究,对知识库的结构和内容的研究很少,大部分方法把注意力放在如何获取知识上,这样研究出来的知识库是经不起实践的检验的,这也就是为什么自然语言发展缓慢的原因。

人使用语言的目的是为了交流,为了从语言中获取丰富的知识。所以,完善的自然语言处理系统,应该可以从自然语言中获取知识,并将这些知识用在理解语言上。例如“我以塑料为材料作板凳。我买了塑料板凳”从前面一句话就可以获得一定知识,这个知识可能在后面的语言分析中用到。而现在的自然语言分析系统只注意利用学习算法和语料库向知识库中添加知识,对于如何直接从自然语言中获取知识则无所作为。这主要是因为,没有弄清知识库的结构和内容。

针对这一情况,我研究机器翻译的重点放在知识库的建立上。到目前为止已经初步建立起一个自然语言数据库模型,该模型可以翻译很多复杂的句子,并可以实现从自然语言中获取知识。该模型的数据库有三种:规则库组、信息暂存库组、知识库组。

规则库组:主要作用是对句子进行分析,根据词类和上下文词类,将词放入相关的信息暂存库中,并建立或预留与其他信息暂存库的链接指针。在出现复杂关系的时候,要根据规则及时将链接指针值改变,也可以根据情况将信息暂存库中的词放入其他信息暂存库中。

信息暂存库组:每个信息暂存库代表着一定的实际意思(例如时间、事件等)。利用信息暂存库自身的意思和库之间的链接指针,就可以描述句子意思。

知识库组:用来配合规则库,指导词进入正确的信息暂存库,并填写正确的指针值。在句子分析完毕后,利用信息获取系统,从句子中获取有用的信息,存入知识库并建立相应链接。同时,及时地进行统计分析,简化知识库。并进行遗忘分析,将知识中超时的,且没有与其他知识库建立有效链接的孤立信息删除。以提高语言识别的速度。
上一页12 3 下一页