基于中文文本的领域本体学习研究
发布时间:2021-03-09 23:21
本体作为语义网络的重要分支,在信息检索、问答系统等领域扮演着重要的角色。而本体构建作为本体应用的必要前提,目前本体构建方法主要分为两类,一类为依靠本体专家手工构建本体,另一类为根据统计学和语言学等理论自动或者半自动构建本体,即本体学习。由于手工构建本体缺乏足够的灵活性和客观性,因此本体学习逐渐成为当前本体构建研究的主流方法。但是传统的本体学习方法存在领域可移植性较差等问题,并且基于网络文本的本体学习研究相对较少。因此本文基于互联网中文文本进行本体学习研究,其中主要包括语料库的构建和本体概念、分类关系、非分类关系的抽取,提升了本体学习方法的可移植性和性能。本文的主要内容及成果如下:(1)提出一种自动构建本体学习语料库的方法。传统的本体学习方法通常是基于已有的标注语料库实现的,难以利用复杂的网络文本进行本体学习。本文首先基于知识图谱获取领域词典,进而构建得到对应领域的领域向量空间模型。然后基于TF*IWF*IWF算法将网络文本映射为领域空间向量,并计算得到该文本与对应领域的相关度。最后根据相关度对网络文本进行过滤与预处理,从而完成本体学习语料库的构建。(2)提出一种改进的D-TF-IDF算...
【文章来源】:重庆大学重庆市 211工程院校 985工程院校 教育部直属院校
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
014年的LOD项目云Fig.2.2LODProjectCloudin2014
重庆大学硕士学位论文6实验设计与结果分析48(a)准确率比较(b)召回率比较(c)F1值比较图6.4本体概念抽取方法比较Fig.6.4Comparisonofontologyconceptextractionmethods从上图分析可得,相较于已有的本体概念抽取方法,结合D-TF-IDF与K-Means的概念抽取方法在文本语料数较小时性能较差,其中准确率、召回率和F1值均偏低。主要由于文本语料较少导致word2vec模型的训练效果不好,进而导致本体术语的聚类效果不好,所以本体概念形成和标注的效果较差。但是当文本语料数足够大时,结合D-TF-IDF与K-Means的概念抽取方法可以明显提升本体概念抽取的性能。对于结合CCM与TFIDFE的本体概念抽取方法、结合DR&DC与LLR的本体概念抽取方法和D-TF-IDF本体概念抽取方法,由于没有word2vec模型的训练过程,只是依赖于统计计算,因此对文本语料数量的依赖程度相对较低。综合上述分析,当语料库中的中文文本较少时,可以直接选择D-TF-IDF算法进行本体概念抽取,或者选择由大量通用文本已经训练完成的word2vec模型代替手动训练,也可以在一定程度上优化本体概念抽取的性能。当语料库中的中文文本较多时,使用结合了D-TF-IDF与K-Means的优化方法可以明显提升本体概念
【参考文献】:
期刊论文
[1]基于主题词表与百科知识相融合的领域本体自动构建研究[J]. 王汀,冀付军. 情报学报. 2017(07)
[2]从文本中构建领域本体技术综述[J]. 任飞亮,沈继坤,孙宾宾,朱靖波. 计算机学报. 2019(03)
[3]中文专利领域本体概念间非分类关系抽取[J]. 何宇,吕学强,刘秀磊,徐丽萍. 计算机工程与设计. 2017(01)
[4]课程本体自动构建技术研究[J]. 童名文,牛琳,杨琳,邹军华,上超望. 计算机科学. 2016(S2)
[5]国内外领域本体构建方法的比较研究[J]. 岳丽欣,刘文云. 情报理论与实践. 2016(08)
[6]基于Word2Vec的一种文档向量表示[J]. 唐明,朱磊,邹显春. 计算机科学. 2016(06)
[7]中文领域知识半自动化OWL本体构建方法研究[J]. 董洋溢,李伟华,陈世亮. 计算机应用与软件. 2016(05)
[8]自动化构建的中文知识图谱系统[J]. 鄂世嘉,林培裕,向阳. 计算机应用. 2016(04)
[9]知识图谱构建技术综述[J]. 刘峤,李杨,段宏,刘瑶,秦志光. 计算机研究与发展. 2016(03)
[10]基于形式概念分析的本体构建方法研究[J]. 韩道军,甘甜,叶曼曼,沈夏炯. 计算机工程. 2016(02)
硕士论文
[1]基于中文文本的本体学习关键技术研究[D]. 马传宾.西安邮电大学 2016
本文编号:3073648
【文章来源】:重庆大学重庆市 211工程院校 985工程院校 教育部直属院校
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
014年的LOD项目云Fig.2.2LODProjectCloudin2014
重庆大学硕士学位论文6实验设计与结果分析48(a)准确率比较(b)召回率比较(c)F1值比较图6.4本体概念抽取方法比较Fig.6.4Comparisonofontologyconceptextractionmethods从上图分析可得,相较于已有的本体概念抽取方法,结合D-TF-IDF与K-Means的概念抽取方法在文本语料数较小时性能较差,其中准确率、召回率和F1值均偏低。主要由于文本语料较少导致word2vec模型的训练效果不好,进而导致本体术语的聚类效果不好,所以本体概念形成和标注的效果较差。但是当文本语料数足够大时,结合D-TF-IDF与K-Means的概念抽取方法可以明显提升本体概念抽取的性能。对于结合CCM与TFIDFE的本体概念抽取方法、结合DR&DC与LLR的本体概念抽取方法和D-TF-IDF本体概念抽取方法,由于没有word2vec模型的训练过程,只是依赖于统计计算,因此对文本语料数量的依赖程度相对较低。综合上述分析,当语料库中的中文文本较少时,可以直接选择D-TF-IDF算法进行本体概念抽取,或者选择由大量通用文本已经训练完成的word2vec模型代替手动训练,也可以在一定程度上优化本体概念抽取的性能。当语料库中的中文文本较多时,使用结合了D-TF-IDF与K-Means的优化方法可以明显提升本体概念
【参考文献】:
期刊论文
[1]基于主题词表与百科知识相融合的领域本体自动构建研究[J]. 王汀,冀付军. 情报学报. 2017(07)
[2]从文本中构建领域本体技术综述[J]. 任飞亮,沈继坤,孙宾宾,朱靖波. 计算机学报. 2019(03)
[3]中文专利领域本体概念间非分类关系抽取[J]. 何宇,吕学强,刘秀磊,徐丽萍. 计算机工程与设计. 2017(01)
[4]课程本体自动构建技术研究[J]. 童名文,牛琳,杨琳,邹军华,上超望. 计算机科学. 2016(S2)
[5]国内外领域本体构建方法的比较研究[J]. 岳丽欣,刘文云. 情报理论与实践. 2016(08)
[6]基于Word2Vec的一种文档向量表示[J]. 唐明,朱磊,邹显春. 计算机科学. 2016(06)
[7]中文领域知识半自动化OWL本体构建方法研究[J]. 董洋溢,李伟华,陈世亮. 计算机应用与软件. 2016(05)
[8]自动化构建的中文知识图谱系统[J]. 鄂世嘉,林培裕,向阳. 计算机应用. 2016(04)
[9]知识图谱构建技术综述[J]. 刘峤,李杨,段宏,刘瑶,秦志光. 计算机研究与发展. 2016(03)
[10]基于形式概念分析的本体构建方法研究[J]. 韩道军,甘甜,叶曼曼,沈夏炯. 计算机工程. 2016(02)
硕士论文
[1]基于中文文本的本体学习关键技术研究[D]. 马传宾.西安邮电大学 2016
本文编号:3073648
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3073648.html
最近更新
教材专著