智能化跨语言农业知识产权检索模型与算法研究

发布时间：2019-10-09 09:51

【摘要】：当今世界，互联网消息迅速膨胀，农业知识产权检索技术得到充分发展。单一语种检索可以有效检索出中文农业知识产权信息，然而随着用户对农业知识产权检索需求的提高，在中文中进行检索已经远远不能满足需要，检索英语语种中的相关信息成为必要，于是我们将目光投向了跨语言农业知识产权检索领域。针对跨语言农业知识产权检索效率低这一问题，本文以短语统计机器翻译和潜在语义跨语言查询扩展为研究对象，主要完成了以下工作：（1）基于短语的统计机器翻译模型的构建。针对普通机器翻译机对农业知识产权信息翻译准确率低这一问题，使用加入农业专业语料库的基于短语的统计机器翻译模型对其进行了改进研究。首先，通过信息抽取，获得农业双语语料库，经过语料库预处理、词语对齐和短语抽取对训练语料库进行模型训练。然后，采用isi解码器对测试语句进行解码。其次，对解码输出进行后处理，得到最终的翻译结果。最后，使用BLEU和NIST评测标准对翻译结果进行评价，输出评价结果文档。评价结果文档证明，加入农业语料的基于短语的统计机器翻译模型翻译质量提高了16.9%。（2）基于潜在语义分析的跨语言查询扩展优化研究。针对跨语言信息检索中存在的查询词不匹配造成的查准率低这一问题，引入了跨语言查询扩展方法。前人在建立双语空间时采用奇异值分解法，此方法构造的空间矩阵会出现负值，极大影响语料的表示，通过加入非负矩阵分解法对其进行了改进。双语空间矩阵构造好后，为了减少计算量还须对其进行降维，往常研究者们都是直接设定这个维度值，，然而，维度值若过大则计算量并不能减少，过小的话导致语义信息丢失，从而失去意义。研究建立择优模型，设立多个维度值，通过一个信任度来选择最优的维度值对空间矩阵进行降维，达到降维的目的。在目标语言扩展时，需要聚类提高文本聚合度，而最常用的方法使k-means聚类算法，然而此方法在遇到矩阵存在孤立点问题时，会极大影响聚合精度，通过使用k-medoid聚类方法对其改进。通过实验验证，加入非负矩阵分解法后，检索精度提高了9.8%，加入择优模型后，检索精度提高了18.2%，改进k-means聚类方法后，检索精度提高了3.8%，综合以上所有改进后，检索精度达到了61.28%，提高了40.6%。（3）结合基于短语的统计机器翻译模型和基于潜在语义分析的跨语言查询扩展方法，搭建了跨语言农业知识产权检索平台。经过测试表明，该平台具有良好的可用性、健壮性和可维护性。
【图文】：

语料库,语言模型

别得到 chinese3600.txt 和 english3600.txt 中英文档，将 chinese3600.txt 中的全角形式的标点符号手工删除。最后，使用 ICTCLAS 基于串匹配与统计分词法对平行语料库中的中文语料进行词语划分，英文分词使用 Egypt 自带工具。把生成的拆分后的内容继续存到原文件中。处理后的语料库如图 3-6 所示。为了区别于语言模型中的测试句子，选择前 3000 对双语语料（分别命名为 chinese 与 english）用于训练，得出翻译概率表。把3600 句中的英文句子 english3600 作为语言模型训练集用于训练出标准的语言模型。

词语,短语

接下来需要对已拆分的语料库进行词语对齐，首先从拆分好的平行语料库逐对读入中英双语句子对，对其词性标注、禁用词过滤和词形还原处理，然后计算每个句子中的词语相似度和相对偏移位置，并用 Bootstrap 方法训练词性转移概率，最后计算词语对齐概率，得到词语对齐语料库，如图 3-7（左）所示。短语抽取对词语对齐结果依赖性图 3-7 词语对齐与短语抽取结果图Fig.3-7 Words alignment and phrases extraction results22
【学位授予单位】：西北农林科技大学
【学位级别】：硕士
【学位授予年份】：2014
【分类号】：TP391.1

【参考文献】