基于多源异构数据融合的概念层次体系构建及其应用研究
本文选题:概念层次体系 + 关键词抽取 ; 参考:《南京理工大学》2017年硕士论文
【摘要】:领域专家构建丰富的领域概念层次体系,将领域知识自顶向下、逐层分类,方便用户检索与获取信息。同时,概念层次体系构建还能为自动问答、机器翻译等研究提供支持。目前,传统的手工构建与半自动构建方法效率低、成本高、跨平台使用难度大;而自动构建方法则往往依赖于单一语料,抽取出的概念不够准确,层次关系比较单一。为此,本论文结合半结构化的专业语料库与非结构化的用户生成内容(User Genetrated Conent,UGC),利用多源异构数据融合的方法构建概念层次体系。一方面,利用专业领域语料库,初步构建概念层次体系;另一方面,针对非结构UGC,分别进行关键词抽取、词语相似度计算、概念层次体系构建等三个方面的研究。首先,在关键词抽取研究中,本文结合模式匹配、统计特征排序、序列标注等多种关键词抽取策略,提出一种基于种子词扩展的关键词抽取方法。首先,基于模式匹配与统计特征排序的策略获得种子词;其次,基于条件随机场(Conditional Random Fields,CRFs)模型扩展种子词。本文通过与 TF*IDF、TextRank、NC_value、CRFs 等算法进行对比试验,证明本文策略不仅可以摆脱统计特征抽取对高频词的依赖,还能在一定程度上解决句法模板的限制,获得更高的召回率。其次,在词语相似度计算研究中,本文提出一种基于多源知识融合的词语相似度计算方法。首先,分别基于语词知识体系(同义词词林、知网)、大规模语料资源(微博语料、新闻语料)、搜索引擎资源(百度、必应),通过单独的算法计算词语相似度;其次,基于支持向量机回归机(Support Vector Regression,SVR)集成多个算法的计算结果,获得最终的词语相似度。实验结果表明,当训练集数据量足够大时,本文方法在性能及算法稳定性上,都要远高于其他几种单独的算法。最后,在概念层次体系构建研究中,本文通过Kmeans聚类算法获得概念间的层次关系。由于不同聚类算法获得的聚类结果存在较大差异,因此,本文对比相似性传播算法(Affinity Propagation,AP)、层次聚类算法(Hierarchical Clustering),通过聚类评估量化评价其聚类效果,并据此确定合适的聚类算法。本文将基于UGC的概念层次体系与基于专业领域语料库的概念层次体系进行融合,最终得到的该领域的概念层次体系。为了评价该概念层次体系的质量,本文使用外部评估方法,即通过应用来评价概念层次体系的质量。通过情感分析任务的实验表明,基于概念层次体系扩充情感向量空间维度,可以显著提升情感分析系统的性能,同时也证明本文构建的概念层次体系的有效性。
[Abstract]:This paper proposes a method of keyword extraction based on multi - source heterogeneous data fusion . Firstly , this paper combines semi - structured professional corpus and non - structured user - generated content ( UGC ) to construct conceptual hierarchy system . In order to evaluate the quality of the concept hierarchy system , this paper uses the concept hierarchy system of UGC to evaluate its clustering effect . Finally , this paper uses the concept hierarchy system of UGC to evaluate its clustering effect .
【学位授予单位】:南京理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 胡江滔,汪卫,周傲英;基于抽样的概念层次挖掘算法[J];计算机应用与软件;2001年03期
2 温春;石昭祥;张霄;;本体概念层次获取方法综述[J];计算机应用与软件;2010年09期
3 李颖,丁华东,许世蒙,罗九林,黄曾阳;概念层次网络中对偶性设计[J];装甲兵工程学院学报;2002年01期
4 王丽珍,周丽华,陈红梅;基于概念层次树的例外挖掘方法研究[J];计算机工程与应用;2002年11期
5 杨学兵,蔡庆生;连续值属性的概念层次自动提取算法[J];华中科技大学学报(自然科学版);2003年12期
6 温春;石昭祥;张亮;;中文领域本体概念层次获取方法对比研究[J];计算机应用研究;2009年08期
7 田凤珍;韩宪忠;陈晨;王克俭;;基于概念层次树的用户特征挖掘技术[J];微型机与应用;2011年05期
8 张锦;冯嘉礼;史小宏;;基于定性映射模型的概念层次树构建方法[J];计算机辅助工程;2006年01期
9 宣士斌;;基于概念相容性的概念树自动生成算法[J];计算机工程与应用;2007年06期
10 杨学兵;基于概念层次的关联规则挖掘算法[J];安徽工业大学学报(自然科学版);2003年04期
相关会议论文 前5条
1 陈晓云;杨晓娟;张彦哲;;离散化与概念层次的产生[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
2 ;HNC(概念层次网络)理论[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
3 黄娴;陶宁薇;;基于概念层次网络(HNC)理论的省略恢复研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
4 陈红梅;王丽珍;;对象概念层次树的构造[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
5 熊亮;;优先排除全局动词假设的策略研究[A];第八届全国人机语音通讯学术会议论文集[C];2005年
相关重要报纸文章 前1条
1 记者郑千里;火眼金睛识别红黑网络信息[N];科技日报;2002年
相关硕士学位论文 前4条
1 周璐;云环境中基于语义特征的加密文档检索方案研究[D];南京信息工程大学;2015年
2 张晓勇;基于多源异构数据融合的概念层次体系构建及其应用研究[D];南京理工大学;2017年
3 陈逸凡;基于概念层次的网络挖掘技术[D];上海交通大学;2008年
4 肖娟;基于概念层次树的数据挖掘算法及在CRM中的应用[D];浙江工业大学;2004年
,本文编号:1943326
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1943326.html