基于中文文本的领域本体学习研究

发布时间:2021-03-09 23:21
  本体作为语义网络的重要分支,在信息检索、问答系统等领域扮演着重要的角色。而本体构建作为本体应用的必要前提,目前本体构建方法主要分为两类,一类为依靠本体专家手工构建本体,另一类为根据统计学和语言学等理论自动或者半自动构建本体,即本体学习。由于手工构建本体缺乏足够的灵活性和客观性,因此本体学习逐渐成为当前本体构建研究的主流方法。但是传统的本体学习方法存在领域可移植性较差等问题,并且基于网络文本的本体学习研究相对较少。因此本文基于互联网中文文本进行本体学习研究,其中主要包括语料库的构建和本体概念、分类关系、非分类关系的抽取,提升了本体学习方法的可移植性和性能。本文的主要内容及成果如下:(1)提出一种自动构建本体学习语料库的方法。传统的本体学习方法通常是基于已有的标注语料库实现的,难以利用复杂的网络文本进行本体学习。本文首先基于知识图谱获取领域词典,进而构建得到对应领域的领域向量空间模型。然后基于TF*IWF*IWF算法将网络文本映射为领域空间向量,并计算得到该文本与对应领域的相关度。最后根据相关度对网络文本进行过滤与预处理,从而完成本体学习语料库的构建。(2)提出一种改进的D-TF-IDF算... 

【文章来源】:重庆大学重庆市 211工程院校 985工程院校 教育部直属院校

【文章页数】:71 页

【学位级别】:硕士

【部分图文】:

基于中文文本的领域本体学习研究


014年的LOD项目云Fig.2.2LODProjectCloudin2014

比较图,本体,概念,方法


重庆大学硕士学位论文6实验设计与结果分析48(a)准确率比较(b)召回率比较(c)F1值比较图6.4本体概念抽取方法比较Fig.6.4Comparisonofontologyconceptextractionmethods从上图分析可得,相较于已有的本体概念抽取方法,结合D-TF-IDF与K-Means的概念抽取方法在文本语料数较小时性能较差,其中准确率、召回率和F1值均偏低。主要由于文本语料较少导致word2vec模型的训练效果不好,进而导致本体术语的聚类效果不好,所以本体概念形成和标注的效果较差。但是当文本语料数足够大时,结合D-TF-IDF与K-Means的概念抽取方法可以明显提升本体概念抽取的性能。对于结合CCM与TFIDFE的本体概念抽取方法、结合DR&DC与LLR的本体概念抽取方法和D-TF-IDF本体概念抽取方法,由于没有word2vec模型的训练过程,只是依赖于统计计算,因此对文本语料数量的依赖程度相对较低。综合上述分析,当语料库中的中文文本较少时,可以直接选择D-TF-IDF算法进行本体概念抽取,或者选择由大量通用文本已经训练完成的word2vec模型代替手动训练,也可以在一定程度上优化本体概念抽取的性能。当语料库中的中文文本较多时,使用结合了D-TF-IDF与K-Means的优化方法可以明显提升本体概念

【参考文献】:
期刊论文
[1]基于主题词表与百科知识相融合的领域本体自动构建研究[J]. 王汀,冀付军.  情报学报. 2017(07)
[2]从文本中构建领域本体技术综述[J]. 任飞亮,沈继坤,孙宾宾,朱靖波.  计算机学报. 2019(03)
[3]中文专利领域本体概念间非分类关系抽取[J]. 何宇,吕学强,刘秀磊,徐丽萍.  计算机工程与设计. 2017(01)
[4]课程本体自动构建技术研究[J]. 童名文,牛琳,杨琳,邹军华,上超望.  计算机科学. 2016(S2)
[5]国内外领域本体构建方法的比较研究[J]. 岳丽欣,刘文云.  情报理论与实践. 2016(08)
[6]基于Word2Vec的一种文档向量表示[J]. 唐明,朱磊,邹显春.  计算机科学. 2016(06)
[7]中文领域知识半自动化OWL本体构建方法研究[J]. 董洋溢,李伟华,陈世亮.  计算机应用与软件. 2016(05)
[8]自动化构建的中文知识图谱系统[J]. 鄂世嘉,林培裕,向阳.  计算机应用. 2016(04)
[9]知识图谱构建技术综述[J]. 刘峤,李杨,段宏,刘瑶,秦志光.  计算机研究与发展. 2016(03)
[10]基于形式概念分析的本体构建方法研究[J]. 韩道军,甘甜,叶曼曼,沈夏炯.  计算机工程. 2016(02)

硕士论文
[1]基于中文文本的本体学习关键技术研究[D]. 马传宾.西安邮电大学 2016



本文编号:3073648

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3073648.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户baf4b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com