当前位置:主页 > 科技论文 > 软件论文 >

非结构化文本上领域本体的抽取

发布时间:2021-03-21 23:31
  随着大数据和人工智能时代的到来,数据成为了各行业的首要关注点,而传统的领域本体构建技术多数基于结构化数据或半结构化数据进行抽取,忽略了非结构化数据中可能包含的重要信息;其次,从中文文本中抽取本体的关键是术语抽取,而传统的词向量构建算法TF-IDF和word2vec需要重复遍历语料库,耗时高、杂质多,且不考虑术语的全文复现度和共现度,导致查准率和查全率较低;再次,中文术语从非结构化走向结构化需要进行概念性验证和结构化表示;最后,本体作为一种共享概念模型的形式化表示,应当具有较强的主动学习能力。针对上述问题,本文采用CKIP概念结构树,省略了人工标注;采用Wikipedia Extractor从维基百科中抽取多领域的文本数据,用wiki百科的定义数据作为偏移修正;在提出建立中文语料库的构建原则后,采用CKIP系统构建术语的概念结构树、进行文本预处理中的词法句法分析,制定3个基于语言形态和概念结构的参数WPOS、WTV、WTC,提出一种无监督的自组织映射SOM的术语抽取算法;本文从内涵、外延、同义词识别几个方面对术语进行概念验证,进一步简化概念结构树,进行语义消歧和冗余去除;使用规则匹配和后... 

【文章来源】:大连海事大学辽宁省 211工程院校

【文章页数】:71 页

【学位级别】:硕士

【部分图文】:

非结构化文本上领域本体的抽取


图2.5术语抽取的准确率??Fig.2.5?Accuracy?of?Terminology?Extraction??

比较图,术语,比较图,概念


?非结构化文本上领域本体的抽取???根据抽取数据结果,术语抽取比较图如图5.1所示:??0.8??????0?6616??0.6?厂]?D?5271?—?—?-4^^—??L?l?^__网?顯?^??0.4??0.2??、?ft?W?^??0???????I?..丨????査准率?查全率?F值?査准率?査全率?F值??TF-IDF?本文抽取结果??图5.1术语抽取结果比较图??Fig.5.1?Comparison?Graph?of?Terminology?Extraction?Result??从图5.1可以看出,本文提出的基于三种度量参数Wa、妒^、砂Vc和SOM聚类的??相似度计算的术语抽取算法,在查准率和查全率的性能上,要优于常用的TF-IDF方法。??5.2中文领域概念抽取实验??5.2.?1数据集??实验硬件环境为:CPU双核主频2.60GHZ+6G内存+Windows系统。本文的实验数??据集来自于WikipediaExtractor获取的wiki.txt文本数据,包括足球、自然灾害的正文内??容,该数据集下有7536千篇正文内容,以.txt格式给出。??为了完成概念的内涵验证和外延验证,本文分别抓取wiki百科上的概念定义内容、??wiki上概念的词语延伸文本,对793个术语进行概念性验证。??5.?2.?2评价标准??概念的内涵验证:爬虫获取的维基百科的概念定义内容。本文得到的部分结果集,??如表5.2所示:??表5.2内涵验证实验数据表??Tab.?5.2?Intension?Testing??内涵验证值?Wm?内涵验证值

【参考文献】:
期刊论文
[1]周期性一般间隙约束的序列模式挖掘[J]. 武优西,周坤,刘靖宇,江贺,吴信东.  计算机学报. 2017(06)
[2]国内外领域本体构建方法的比较研究[J]. 岳丽欣,刘文云.  情报理论与实践. 2016(08)
[3]一种基于模糊Petri网的双向并行推理算法[J]. 王慧英,乐晓波,周恺卿.  计算机工程. 2014(03)
[4]语义Web中对象共指的消解研究[J]. 胡伟,柏文阳,瞿裕忠.  软件学报. 2012(07)
[5]利用上下位关系的中文短文本分类[J]. 王盛,樊兴华,陈现麟.  计算机应用. 2010(03)

博士论文
[1]基于遗传规划和集成学习的Web Spam检测关键技术研究[D]. 牛小飞.山东大学 2012
[2]基于本体的自适应Web信息抽取方法研究[D]. 李传席.中国科学技术大学 2012
[3]基于Web的本体学习研究[D]. 傅魁.武汉理工大学 2007
[4]基于Web的通用本体学习研究[D]. 刘柏嵩.浙江大学 2007

硕士论文
[1]基于领域本体的信息检索研究[D]. 廖军.中南大学 2007



本文编号:3093694

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3093694.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f2aef***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com