当前位置:主页 > 科技论文 > 水利工程论文 >

水利领域本体自动构建方法研究

发布时间:2021-01-11 07:52
  我国水利信息化建设起步较早。随着水利工作者不断地研究与探索,各种软件服务系统相继问世,在水利领域发挥了巨大作用。水利领域的软件服务系统受认知与技术的制约,具有很强的领域性与针对性,数据在应用系统之间不能共享,形成了以专业、部门、地域等为边界的信息孤岛。本体的引入为解决信息孤岛问题,实现一个集信息资源集成,信息共享与知识重用为一体的应用软件平台提供了有力支撑。本文针对水利领域本体自动构建的数据噪音大、概念及概念间关系提取准确度低的问题,借鉴滚雪球运动原理与本体循环构建理念,提出水利领域本体循环自动构建的方法。实现基于BP(back propagation)神经网络算法的候选概念循环提取技术与基于FP(Frequent Pattern)-树频集算法的分层次多语料库概念间关系提取技术,达到了降低数据噪音,提高概念及概念间关系提取准确率的效果。实验结果表明本文设计的水利领域本体循环自动构建方法具有可行性,该方法主要分四步:一、收集所需的非结构化数据作为学习数据,然后进行数据预处理操作;二、使用基于BP神经网络算法的方法循环提取水利领域概念;三、使用基于FP-树频集算法的方法,进行概念间关系提取... 

【文章来源】:华北水利水电大学河南省

【文章页数】:49 页

【学位级别】:硕士

【部分图文】:

水利领域本体自动构建方法研究


Protégé开发界面

本体,概念


领域本体理论概述7图2-2本体展示2.3.领域本体概念提取方法在领域本体构建过程中,概念提取是一项必不可少的任务,而且无论是关系提取还是实例提取都离不开本体概念的自动提龋近年来,国内研究者结合中文语言的特点研究出了一些领域本体概念自动提取方法。常用的方法有三种:基于语言学规则的方法、基于统计学的方法与两者结合法[19]。2.3.1.基于语言学规则的方法基于语言学规则的方法是依据术语的模式、特征、语义信息等进行概念间提龋首先对中文文本进行分词,再根据分词得到的词性、词根等信息,获取到词语所在的上下文内容。综合以上信息得出语法规则,然后与候选概念进行匹配。该方法的优点:(1)概念提取的精度高;(2)只通过规则匹配就可以完成概念提取,计算量小;(3)在概念提取时与文本的相关性较小,不容易受学习数据影响;(4)低频词语提取率高。该方法的缺点有:(1)需要进行复杂的语法、语义知识分析,语法规则建立比较困难;(2)对新出现的词语适应性较差,且语法规则更新困难;(3)语法规则通用性较差。2.3.2.基于统计学的方法基于统计学的方法是通过对比领域相关术语与普通词汇的统计特征进行概念提龋对目标知识领域的大量文本进行统计分析,通过训练数据得到领域内概念的统计特征后,再根据特征值对候选概念进行计算。最后根据设定的阈值进行领域概念划分。本文使用的统计特征值有:

界面图,界面,中文,概念


水利领域本体自动构建方法研究113.1.4.中文分词在进行中文文本水利领域概念抽取研究之前需要将文本数据切分成单个的词语,而针对这一操作目前有许多成熟的工具可以使用,本文选用的是ICTCLAS2015。ICTCLAS是中国科学院计算技术研究所开发的汉语词法分析系统,其主要功能有中文分词、词性标注、用户词典等。ICTCLAS的分词速度块,精度也比较高,是目前比较好的中文分词系统之一。ICTCLAS分词系统提供的简例运行界面如图3-1所示:图3-1ICTCLAS分词系统提供的简例运行界面3.1.5.分词后数据过滤经过分词后的候选概念存在大量的不具有领域特性的或属于其他非目标领域的词语,这些数据就是干扰数据。它们不仅会增大词语的处理范围,加重计算机的工作量,拉长数据处理的时间,降低概念提取的效率,同时还会给基于机器学习的领域本体概念提取带来很难去除的数据噪音,影响概念提取的精度与召回率。本文设计的多重去噪方法主要分为两个阶段。第一阶段,在分词阶段引入停用词表,去除一部分停用词。在去除一部分数据噪音的同时,也降低分词的负担。部分停用词如图3-2所示:


本文编号:2970382

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shuiwenshuili/2970382.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d2dda***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com