自然语言叙词表自动构建研究

发布时间：2020-03-21 16:06

【摘要】： 一个完整的检索系统包含四个子系统，即标引子系统，检索子系统，词表系统和用户-系统接口。其中，词表是检索系统的基础，是影响检索效率的最主要因素。目前网络信息检索效率很低，主要原因是字面不匹配问题。为了改进检索系统的性能，需要引入叙词表等控制机制，使检索从字面匹配层次提升到概念匹配层次，从而实现概念检索。人工编制词表准确率高，但是成本高，建构速度慢，事先选用的词汇可能与检索系统后续新进的文献无关；有学者经实验证明，通用叙词表应用到特定领域的文献检索上，无法提高检索效率；另外，，针对每一种文献领域制作叙词表，既耗时又费力，所以，自动快速地构建领域叙词表是提升网络信息检索效率所迫切需要的。针对以上问题，本文提出了一种自然语言领域叙词表自动构建方法，该方法构建的词表能够在标引和检索两端对输入的自然语言进行控制，是一部“内核受控，外壳非控”的自然语言叙词表。自动构建叙词表，是通过模式识别、同现分析、聚类分析等知识挖掘和自然语言处理技术自动识别词间等同、等级和相关关系。本文主要探讨词间等级关系和相关关系的自动识别，首先以Dice测度计算词汇之间的关联度，构建关联概念空间，在此基础上采用等级词聚类算法把表述同一类事物的词汇聚集在一起，然后通过等级识别算法识别出各簇内的词间等级关系；对于相关关系，主要通过关联概念空间提示相关词汇；对于等同关系，采用模式识别方法结合词面相似度算法予以识别。本文以财税领域为试验数据来源，在自动构建一部财税领域叙词表后，将其应用到财税网页文本的自动标引上，把抽取的关键词通过财税词表自动转换为“内核”主题词实现赋词标引。同时，可以采用自然语言查询词表，系统会根据财税词表把自然语言词汇转换为最相关的内核受控词，提示给用户使用，从而减轻用户检索负担。本文也探讨了如何对自动构建的词表进行更新和维护，并借鉴N-gram算法，实现了财税新词的识别功能，及时对自然语言叙词表进行补充和更新。自然语言叙词表自动构建试验系统采用VB.NET程序设计语言和ACCESS数据库软件开发而成。
【图文】：

识别模块,税额,资源税,元组

▲:11‘.~...--.-未登录词.~-…~.~‘图3一3新词识别流程(2)N一gram切分把经过预处理得到的短句充分切分成任何可能成词的N元组词串。由于中文关键词最大长度一般不超过巧个字符，同时考虑到词表收录单个字符的词汇量很小，本文采取的方法是，把以上步骤得到的短句，充分切分成最长为巧个字符，最短为2个字符的词串，同时统计各词串的频次。切分时把英文单词作为单个汉字处理。如:“资源税税额标准”经N元切分后得到以下结果:表3一11N元切分表222元组组资源源源税税税税税税额额额标标标准准333元组组资源税税源税税税税税额额税额标标额标准准准444元组组资源税税税源税税额额税税额标标税额标准准准准555元组组资源税税额额源税税额标标税税额标准准准准准666元组组资源税税额标标源税税额标准准准准准准777元组组资源税税额标准准准准准准准对于单篇文献，其论述主题用到的新词，一般会多次反复引用。所以在词频统计完成后，把词频为1的词串作删除标记，既减少噪音，又能提高后续筛词的效率。36

界面图,词素,聚类,界面

自然语言叙词表自动构建研究图4一8等级识别结果示例4.3词素聚类方法考察中文构词特点，涵义相近的词汇在字面上往往含有相同的词素，具有等级关系的词汇含有相同词根的现象也很普遍。根据汉语字面成族特点，可以聚集部分等级关系词汇，这种方法简便易行，但无法识别不具备这一特点的等级关系词汇，同时聚集的词汇中也往往含有非等级词汇，所以该方法适用范围有限。本文采用按词素后方一致或前方一致聚类的方法，以辅助基于相似度矩阵的词聚类方法，尽量收全具有等级关系的词汇。下文以“税收”、“税收管理”等词为例说明词素聚类的处理过程:(l)根据同义词识别过程中制作的词素表，按最大正向匹配算法对内核表中的语词进行词素切分，同时记录每个词汇包含的所有词素。如表4一12所示
【学位授予单位】：南京农业大学
【学位级别】：硕士
【学位授予年份】：2007
【分类号】：G354

【相似文献】