当前位置:主页 > 社科论文 > 图书档案论文 >

面向信息检索的汉语同义词自动识别

发布时间:2020-07-16 15:12
【摘要】:同义词的自动发现和识别在信息检索领域有着重要的研究意义和应用价值,在自动标引、自动分类、机器翻译以及知识组织系统的互操作中,也起着重要的作用。 国外还没有对同义词的自动识别进行专门的研究,已有的研究只是侧重于词汇语义相似度的计算,其用途和目的并不是专门用于识别同义词。在国内,对于汉语同义词识别的研究才刚刚开始,主要侧重于基于词汇字面相似度的方法和基于义类词典的语义相似度方法。 为了提高同义词自动识别的效率,本文提出了从词典释义中自动发现和识别同义词的方法,使用超链接分析算法和模式匹配算法,从不同的角度提取同义词:第一部分是把词汇之间注释与被注释的关系看成是一种链接关系,对给定的词汇进行分析,把与给定词汇具有链接关系的所有相关词汇构造一个词汇图,图中的每一个结点代表相关词,每条弧代表了词汇之间注释与被注释的关系,如果词汇A的注释中出现了词汇B,那么在图中就有一条从B指向A的弧。然后我们利用超链接分析方法并结合PageRank算法,计算词汇的PageRank值,把PageRank值看成是体现词汇之间语义相似性的衡量指标,最后为每一个词汇生成候选同义词集,并通过一定的筛选原则和方法,推荐出最佳的同义词。第二部分是利用词汇定义模式,对词汇的释义方式进行分析,归纳总结出在词典释义中同义词出现的模式,进而利用模式匹配方法获取同义词。此外,利用模式匹配方法对Web网页和期刊论文中的同义词也进行了提取测试。 最后,利用VB.NET、SQL Server 2000、ASP等开发工具实现了基于词典释义的汉语同义词自动识别系统、并对系统运行结果进行了测试。测试结果表明,利用模式匹配和超链接分析方法来自动发现同义词具有可行性和实用性。 本研究中实现的系统尚处于实验阶段,有待进一步的完善。今后的研究包括:引入机器学习方法,自动获取模式;完善抽词词典、扩大语料的类别和规模等。
【学位授予单位】:南京农业大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:G354
【图文】:

《中图法》,类目,电子版,格式


字段是涵义注释字段、上下位类是560字段。数据的表示规范化、结构化,为语料的分析和模式匹配处理带来了方便。在《中图法》中,类目(以类目“数量经济学”为例)的MARC格式如图3一3:图3一电子版《中图法》类目的M人RC格式

同义词,自动识别系统,主界面,词表


签签签签签签签签模模模提提提提提修修式式式式式式式式式式取取取取取改改图6一SW七b网页同义词自动识别模块6.3同义词自动识别系统的开发环境和使用6.3.1系统的开发环境和开发工具开发工具和平台:VB.NET(.NET平台)数据库:sQLSevrer2000W已b服务器:Intenr改InofmrationSevrer5.06.3.2系统的界面简介系统的主程序是一个典型的CS/结构的系统。其主界面如图6一6:图6一6同义词自动识别系统主界面各个菜单包括以下功能:(1)在“文件”菜单下,包括“系统配置”和“系统初始化”两个子菜单。(2)在“自动处理”菜单下,包括“数据导入”、“模式匹配提取”、“匹配结果整理”、“词汇关系推导”及“RP提取…”五个子菜单。(3)在“词表维护”菜单下,包括“Web配置”、“词表查询”、“词表浏览”及“词表维护”四个子菜单。

对话框,筛选参数,对话框,同义词


3.4同义词识别系统的系统配置和阂值参数设定同义词识别系统的配置主要包括两部分:一是系统配置,点击“文件”菜单下的“系统配置”进入系统参数设置界面,如图6一7。在系统进行同义词识别任务前,首先必须进行程序初始化参数的设置,其中包括对抽词词典、筛选词词典的存放路径的设置以及对数据库访问的有关信息(包括用户名和密码)的初始设置。二是有关词表Web访问的配置。点击“web”菜单下的“web设置”,则进入词表Web管理的参数设置界面(如图6一8):包括提供V触b服务的服务器的Pl地址,访问端口号以及数据接口信息等等。图6一,同义词识别系统配置对话框图6一8同义词表维护配置对话框同义词识别系统的闭值设定主要用来设置同义词筛选参数,包括:PgaeRakn相对值指标的闭值,词汇字面相似度的闭值等等。点击“自动处理…”一“PgaeRakn提取识别”菜单下的“闭值设定”进入同义词筛选闭值的参数设置界面

【引证文献】

相关期刊论文 前10条

1 衡中青;侯汉清;;地方志中基于模式匹配的物产异名别称表达方式研究[J];图书馆理论与实践;2009年12期

2 鲁萍;苏变萍;侯筱婷;;建设法规政策知识库中后控词表检索设计[J];计算机工程与设计;2007年12期

3 仲云云;侯汉清;杜慧平;;电子政务主题词表的自动构建研究[J];中国索引;2008年02期

4 杜慧平;;概念等级关系自动识别研究[J];中国索引;2010年03期

5 徐伟伟;贺玢;刘清水;;面向知识组织的术语数据库词间关系构建研究——以农业机械化术语数据库为例[J];标准科学;2013年05期

6 黄芳;刘友华;张克状;李寅;;结合链接结构和共现分析的同义词自动识别方法[J];现代情报;2009年08期

7 刘友华;黄芳;张克状;李寅;;基于链接结构和共现分析识别同义词的改进方法[J];信息系统学报;2009年02期

8 仲云云;侯汉清;杜慧平;;电子政务主题词表自动构建研究[J];中国图书馆学报;2008年03期

9 刘华梅;侯汉清;;叙词表互操作技术研究——教育集成词库的试验[J];中国图书馆学报;2008年05期

10 陆勇;章成志;侯汉清;;基于百科资源的多策略中文同义词自动抽取研究[J];中国图书馆学报;2010年01期

相关博士学位论文 前6条

1 薛春香;农史知识组织系统构建与应用研究[D];南京农业大学;2006年

2 常娥;古籍智能处理技术研究[D];南京农业大学;2007年

3 何琳;古农学本体的半自动构建及检索研究[D];南京农业大学;2007年

4 李华;面向知识服务的传统农具数字博物馆设计与构建[D];南京农业大学;2008年

5 刘竟;面向概念检索的农史信息门户的设计与构建[D];南京农业大学;2008年

6 张少英;同义心理活动动词解析模式研究[D];北京大学;2013年

相关硕士学位论文 前5条

1 宋宇轩;基于搜索日志和点击日志的同义词挖掘的研究和实现[D];北京交通大学;2011年

2 张宗仁;基于自然语言理解的本体语义信息检索[D];暨南大学;2011年

3 刘华梅;基于情报检索语言互操作技术的集成词库构建研究[D];南京农业大学;2006年

4 杜慧平;自然语言叙词表自动构建研究[D];南京农业大学;2007年

5 仲云云;电子政务主题词表的构建及应用研究[D];南京农业大学;2007年



本文编号:2758159

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/2758159.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1e0ca***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com