基于领域本体的Deep Web简单查询接口研究
发布时间:2018-03-26 02:18
本文选题:Deep 切入点:Web 出处:《广西师范大学》2013年硕士论文
【摘要】:伴随信息技术的极速发展,面对这个庞大的信息海洋,如何快速有效的获取正确的信息资源成为了学术界关注的热点问题。根据网络信息的分布情况,可将整个网络信息体系划分为两个部分:Surface Web和Deep Web。Sueface Web所蕴含的信息是可以被传统搜索引擎检索到的,相对而言,Deep Web所蕴含的高质量、大规模、特定领域的信息资源却较难获取。 获取Deep Web所蕴含的信息资源的一个有效手段便是Deep Web数据集成技术,而查询接口作为Deep Web的唯一访问接口也就自然而然地成为了Deep Web数据集成框架研究的重点和热点问题。就目前而言,学术界将Deep Web的查询接口大致分为复杂查询接口和简单查询接口两种形式,两种查询接口在Web中存在的数量相差不大,但是,对复杂查询接口查询处理的研究起步较早、研究较为成熟,相对而言,针对简单查询接口的相关研究是比较少的。 简单查询接口的结构简单,并且对查询内容的约束较少,相对于复杂查询接口上繁多的属性、复杂的属性候选值,简单查询接口的查询方式更贴近用户需求,更符合用户的查询习惯。在对简单查询接口进行查询转换处理时,目前已有的转换方法主要有以下不足:查询转换匹配准确率相对于复杂查询接口不高、相似度算法有待完善、对模式匹配结果的选取较注重最优结果、查询转换时效性较低等。针对这些问题,本文给出了加入领域本体技术的简单查询接口的查询过程,过程中结合领域本体技术,配合基于不同数据类型的相似度计算方法及基于数据类型的匹配优化算法,采用混合模式匹配方法,在考虑不确定性因素的情况下,完成了简单查询接口的查询处理。文章的核心研究主要有以下几个方面: (1)构建了中国—东盟博览会领域本体,对博览会的信息资源进行了描述,使用规范的本体描述语言OWL2进行手动构建,并确保此领域本体的合理性、正确性。 (2)本文对Deep Web查询接口存在的问题进行了详细分析,说明了不确定因素存在的必然性以及其对简单查询接口查询转换的影响。 (3)本文在介绍了Deep Web简单查询接口查询转换具体步骤的基础上,结合相应的转换模型提出了改进的查询转换算法。此算法引入领域本体技术,采用模式级、实例级信息及约束信息相结合的混合模式匹配。对关键词概念匹配率(PKC)、概念属性匹配率(PCA)的计算方法做了相应的改进。在考虑不确定因素的情况下,提出了基于数据类型的匹配结果优化算法,有效提高了查询转换的准确性和时效性。 (4)本文详细介绍了文本和非文本类型数据的相似度计算方法,提出了改进后的离散数字集合相似度、区间型数字集合相似度的计算方法,并将数据类型信息作为约束条件引入到匹配率计算公式中。实验证明改进的相似度算法提高了匹配的准确率。 (5)本文最终实现了对简单查询平台的搭建工作,针对文中提出的方法设计了相关的对比实验,通过对简单查询平台的测试验证了本文理论观点的可行性和合理性。
[Abstract]:......
【学位授予单位】:广西师范大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.1
【参考文献】
相关期刊论文 前10条
1 史忠植,董明楷,蒋运承,张海俊;语义Web的逻辑基础[J];中国科学E辑:信息科学;2004年10期
2 陈丽君;林怀忠;;一种用于深层网接口集成的模式匹配方法[J];计算机工程;2012年12期
3 唐杰;梁邦勇;李涓子;王克宏;;语义Web中的本体自动映射[J];计算机学报;2006年11期
4 刘伟;孟小峰;孟卫一;;Deep Web数据集成研究综述[J];计算机学报;2007年09期
5 姜芳艽;孟小峰;贾琳琳;;Deep Web集成服务的不确定模式匹配[J];计算机学报;2008年08期
6 刘玉奎;周立柱;范举;;中文深度万维网数据库的现状研究[J];计算机学报;2011年02期
7 唐素勤;蔡自兴;王驹;蒋运承;;运用属性探索构建完备描述逻辑本体[J];模式识别与人工智能;2011年01期
8 吴刚,唐杰,李涓子,王克宏;细粒度语义网检索[J];清华大学学报(自然科学版);2005年S1期
9 林玲;周立柱;;基于简单查询接口的Web数据库模式识别[J];清华大学学报(自然科学版);2010年04期
10 寇月;申德荣;李冬;聂铁铮;;一种基于语义及统计分析的Deep Web实体识别机制[J];软件学报;2008年02期
,本文编号:1665898
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1665898.html