基于维基百科的渔业知识库构建研究
本文关键词:基于维基百科的渔业知识库构建研究
【摘要】:本文的目标在于利用维基百科作为语义知识源,构建一个渔业知识相关的语义知识库,文中针对渔业知识的特点,着重对语义相似度计算方法和实体歧义消解方法的分析与研究,并对语义相似度计算方法提出了改进,提出了自己的实体消歧算法。本文抽取维基百科页面的信息框(infobox)知识,并以三元组的形式进行表示。 许多不同的语义相似度计算方法应用于自然语言处理领域,知识获取领域和信息检索领域。目前,很多研究者致力于已经存在的方法支持多本体的相似度计算,以提高相似度的关联值,本文中使用了基于特征的相似度计算方法,整个过程支持多本体方法,并使用了启发式函数。通过渔业知识数据的采集,对实体相似度计算进行了实验。经典的基于本体的语义相似度主要分为以下三种:基于路径的方法,基于特征的方法,基于信息内容的方法。基于路径的方法是最简单的一种方法,通过is-a链接计算本体节点间的最短路径,但所有的路径必须统一相等的长度。基于特征的相似度计算方法克服了基于路径相似度计算方法的缺点,基于特征的相似度计算方法中,本体中的分类链接不需要统一为相等的长度,但是要考虑本体特征集合的重叠程度。基于特征的语义相似度方法可以用于交叉本体,而基于路径的相似度计算方法不能。本文的语义相似度的优点在于,相比于Tversky的方法,本文的基于特征的相似度计算方法不使用权重参数去衡量语义特征,提高了方法的通用性。 对于知识库的更新来说,知识库新实体的内容获取是比较重要的一件事情。输入新的知识到知识库之前,需要实体链接,以保证新知识的实体能够链接到知识库的实体。整个过程中,实体消歧是一个比较有挑战性的任务。命名实体消歧有很多算法。本文中,命名实体消歧的处理可以通过不同的语义关系,相似度方法分析相关文本。基于提出的方法构建了渔业知识库。本文的实体消歧算法主要侧重点有两点:第一,从维基百科,百度百科,互动百科收集大量的同义词集,以支持用户不同的搜索习惯;第二,对于存在无法消歧的实体,提出了二次消歧算法,以解决有的实体无法消歧的问题。 对于渔业知识库的表示、构建、挖掘以及在搜索中的应用。目前存在的主要问题有:1)目前知识库还处于初期阶段;2)人工干预很重要;3)结构化数据在知识库的构建中起到决定性作用;4)各大搜索引擎公司为了保证知识库的质量多半采用成熟的算法;5)知识卡片的给出相对比较谨慎;6)更复杂的自然语言查询将崭露头角(如命名实体歧义消解算法)。此外,知识库的构建是多学科的结合,需要自然语言理解,,机器学习和数据挖掘等多方面知识的融合。有很多开放性问题需要学术界和业界一起解决。我们有理由相信学术界在上述方面的突破将会极大地促进知识库的发展。
【关键词】:相似度计算 命名实体消歧 渔业知识库
【学位授予单位】:上海海洋大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1
【目录】:
- 摘要4-6
- ABSTRACT6-10
- 第一章 引言10-14
- 1.1 研究背景10
- 1.2 知识库研究现状10-12
- 1.2.1 知识库在搜索中的应用现状10-11
- 1.2.2 知识库研究现状11-12
- 1.2.3 问题的提出12
- 1.3 主要研究内容12-13
- 1.4 本文章节安排13-14
- 第二章 知识库构建相关工作介绍14-23
- 2.1 信息抽取相关技术分析14-15
- 2.1.1 模式匹配方法14
- 2.1.2 基于概率的解析14
- 2.1.3 混合的语法语义信息抽取14-15
- 2.1.4 子语言驱动信息抽取15
- 2.1.5 本体驱动信息抽取15
- 2.2 相似度方法研究现状15-20
- 2.2.1 基于路径的相似度计算方法16-17
- 2.2.2 基于信息内容的相似度计算方法17-18
- 2.2.3 基于特征的相似度计算方法18-20
- 2.3 实体歧义消解现状分析20-22
- 2.4 本章小结22-23
- 第三章 基于维基百科的渔业知识库的构建模型23-42
- 3.1 维基百科的抽取23-28
- 3.1.1 维基百科23-25
- 3.1.2 鱼类实体抽取过程25-28
- 3.2 渔业知识库的构建28-32
- 3.2.1 概念角度28
- 3.2.2 OWL28-29
- 3.2.3 渔业知识本体规划29-32
- 3.3 渔业知识库实体相似度计算方法32-36
- 3.4 渔业知识命名实体消歧算法36-40
- 3.4.1 链接明确的实体38-39
- 3.4.2 二次消歧39-40
- 3.5 本章小结40-42
- 第四章 实验结果42-51
- 4.1 知识库需求分析42-43
- 4.2 实体相似度实验结果分析43-46
- 4.3 实体歧义消解实验分析46-51
- 第五章 结论与展望51-52
- 5.1 总结51
- 5.2 展望51-52
- 参考文献52-58
- 攻读学位期间发表的学术论文58-59
- 致谢59
【相似文献】
中国期刊全文数据库 前10条
1 蔡东风;白宇;于水;叶娜;任晓娜;;一种基于语境的词语相似度计算方法[J];中文信息学报;2010年03期
2 丁政建;张路;;一种改进的本体相似度计算方法[J];计算机工程;2010年24期
3 朱珍元;郑诚;;一种改进的本体相似度计算方法[J];微型机与应用;2011年01期
4 崔韬世;麦范金;;词语相似度计算方法分析[J];网络安全技术与应用;2012年05期
5 王国春;郑山红;赵辉;董亚则;;基于阶段递进的综合本体相似度计算方法[J];吉林大学学报(信息科学版);2014年02期
6 张忠平;田淑霞;刘洪强;;一种新的本体相似度计算方法[J];计算机应用研究;2008年10期
7 赵欢;李仁发;王家琴;张在美;;综合多层信息的本体概念相似度计算方法的研究[J];通信学报;2009年06期
8 李改;李章凤;李磊;;一种新的社会化相似度计算方法[J];计算机应用研究;2013年09期
9 曾辉;徐海洲;钟茂生;;基于主题和焦点的问句相似度计算方法[J];科学技术与工程;2014年06期
10 张忠平;田淑霞;刘洪强;;一种综合的本体相似度计算方法[J];计算机科学;2008年12期
中国重要会议论文全文数据库 前8条
1 白宇;于水;叶娜;蔡东风;任晓娜;;一种基于语境的词语相似度计算方法[A];第五届全国信息检索学术会议论文集[C];2009年
2 乔林;黄维通;孟威;;一种改进的知网系统词语相似度计算方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
3 菅小艳;郑家恒;;一种改进的句子相似度计算方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
4 卢延科;尹宝生;张桂平;苗雪雷;白宇;;基于伪LCS的中文专利句子相似度计算方法[A];第五届全国信息检索学术会议论文集[C];2009年
5 章志凌;虞立群;罗海飞;邵晓敏;;基于改进Corpus库的词语相似度计算方法[A];第二十四届中国控制会议论文集(下册)[C];2005年
6 章成志;李斌;;基于混合策略的查询串相似度计算方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 陈希友;冯少荣;张东站;薛永生;;基于反馈的用户访问预测模型[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
8 李天宁;肖桐;朱靖波;;科技论文的IPC自动标注[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国硕士学位论文全文数据库 前10条
1 陈欣;一种基于多属性本体的概念相似度计算方法的研究[D];东北师范大学;2010年
2 唐中林;基于本体的概念相似度计算方法的研究[D];武汉理工大学;2013年
3 徐海洲;自动问答系统中问句相似度计算方法研究[D];华东交通大学;2014年
4 王莹莹;中文短语相似度计算方法研究及应用[D];长沙理工大学;2008年
5 俞云飞;多特征融合的电影相似度计算方法研究[D];华东师范大学;2012年
6 周舫;汉语句子相似度计算方法及其应用的研究[D];河南大学;2005年
7 江阿古丽·哈依达尔;哈萨克语句子相似度计算方法的研究[D];新疆大学;2012年
8 贾娜;基于本体的食品投诉文档文本分类研究[D];东北师范大学;2011年
9 牛庆鹏;博客朋友推荐技术的研究[D];东北大学;2009年
10 牛庆鹏;博客潜在朋友推荐技术的研究[D];东北大学;2009年
本文编号:766708
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/766708.html