当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于语义相似度计算的Deep Web数据库检索方案研究

发布时间:2017-10-18 09:00

  本文关键词:基于语义相似度计算的Deep Web数据库检索方案研究


  更多相关文章: 深度万维网 同义词词林 知网 语义相似度 属性词典


【摘要】:随着互联网行业的快速发展,我们正处在一个信息快速增长的年代,并且在海量增长的信息中往往蕴含着大量有价值的数据。虽然在日常生活中,我们可以通过各种搜索引擎解决我们的需求,但是有时候搜索出来的信息,往往在信息相关的程度和精度上,与我们期望的存在着差异,从而不能够完全满足我们的搜索需求。通常我们使用的一些搜索引擎,比如Baidu、Google、Yahoo等等,往往都是通过网络爬虫技术,将相关的网站页面首先抓取到自身的服务器上。我们在对关键词进行搜索的时候,实际上是直接查询本地相关文件,反映给我们的往往也是一些静态的网页数据。日常范围内的搜索,我们很难通过关键词的简单查询完全获得Deep Web DB的数据,从而损失丁海量有价值数据信息。 本文提出了基于语义相似度计算的Deep Web数据库检索力法,该力法的目的在于将语义相似度的计算方法运用于数据库检索当中去,最终将该方法同传统搜索引擎有效结合,更加满足用户搜索需求。本文首先简要的介绍了几种常见的语义相似度的计算方法,最后结合各自的优点,将同义词词林(哈工大版)和知网(HowNet)有效结合,提出了一种改进的语义相似度的计算方法。通过计算关键词和属性词典对应属性列之间的相关联度,在基于阀值的匹配算法的基础上,确定当前关键词的查询的搜索范围,挖掘出潜在于Deep Web数据库中与关键词有关联的信息。通过对Deep Web数据库的相应查询,最终将查询的结果通过有效的形式反馈给当前用户 由丁当前Deep Web下中文测试数据库相对较少,我们采用的是某校信息管理系统的后台数据库作为数据源进行测试。实验部分举例验证和测试了本文中所提出的方法的可行性和正确性,不仅避免了数据库均全表扫描的代价,同时也尽可能的精确当前关键词的查询范围,并且后期通过与搜索引擎的无缝集合,提供给用户高效、稳定的查询体验。
【关键词】:深度万维网 同义词词林 知网 语义相似度 属性词典
【学位授予单位】:上海师范大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP311.13
【目录】:
  • Abstract6-7
  • 摘要7-10
  • 第一章 绪论10-15
  • 1.1 研究背景10-11
  • 1.2 研究现状11-12
  • 1.3 研究目的和意义12-13
  • 1.4 论文的主要工作和创新点13
  • 1.5 论文的组织结构13-15
  • 第二章 语义相似度及属性词典15-28
  • 2.1 语义相似度15-25
  • 2.1.1 语义相似度相关定义15-16
  • 2.1.2 语义相似度关联因素16-17
  • 2.1.3 基于同义词词林的语义相似度17-19
  • 2.1.4 基于知网的语义相似度19-25
  • 2.2 属性词典25-27
  • 2.2.1 基本原理25
  • 2.2.2 模型介绍25-27
  • 2.3 本章小结27-28
  • 第三章 Deep Web 下基于语义相似度方法研究28-38
  • 3.1 语义相似度计算28-31
  • 3.1.1 方法介绍28-30
  • 3.1.2 语义相似度评估标准30-31
  • 3.2 改进的语义相似度的计算方法31-37
  • 3.2.1 方法介绍31-32
  • 3.2.2 基于同义词词林的相关词获取算法32-33
  • 3.2.3 基于知网(HowNet)的语义相似度33-35
  • 3.2.4 基于阈值的匹配算法35-37
  • 3.3 本章小结37-38
  • 第四章 Deep Web 数据库检索部分的实现38-46
  • 4.1 系统架构38-41
  • 4.1.1 三层架构介绍38-39
  • 4.1.2 三层架构的优势39-40
  • 4.1.3 三层架构的缺陷40-41
  • 4.2 相关数据源配置41-42
  • 4.2.1 ODBC 相关定义41-42
  • 4.2.2 数据库配置文件42
  • 4.3 属性词典42-44
  • 4.3.1 以 SQL Server 2008R2 为例42-44
  • 4.3.2 属性词典生成步骤44
  • 4.4 本章小结44-46
  • 第五章 实验测试与分析46-52
  • 5.1 测试方案和测试环境46
  • 5.1.1 测试方案46
  • 5.1.2 测试环境46
  • 5.2 基于相似度计算模型的 Deep Web 数据库检索46-49
  • 5.2.1 获得关键词的相关词46-47
  • 5.2.2 相关词语义分析47
  • 5.2.3 语义相似度计算过程47-49
  • 5.3 实验结果监测与分析49-50
  • 5.3.1 评估指标选择49
  • 5.3.2 实验结果统计与分析49-50
  • 5.4 本章小结50-52
  • 第六章 总结与展望52-54
  • 6.1 工作总结52
  • 6.2 未来研究重点与方向52-54
  • 参考文献54-57
  • 致谢57-58
  • 攻读硕士期间的研究成果58

【参考文献】

中国期刊全文数据库 前10条

1 田久乐;赵蔚;;基于同义词词林的词语相似度计算方法[J];吉林大学学报(信息科学版);2010年06期

2 何利娟;;使用ODBC API技术进行数据转换[J];福建电脑;2012年05期

3 刘伟;孟小峰;孟卫一;;Deep Web数据集成研究综述[J];计算机学报;2007年09期

4 刘玉奎;周立柱;范举;;中文深度万维网数据库的现状研究[J];计算机学报;2011年02期

5 谈冉;陈巍;薛胜军;;设计模式在典型.net三层架构Web程序中的应用[J];武汉理工大学学报(交通科学与工程版);2006年02期

6 姜芳艽;孟小峰;;Deep Web数据集成中查询处理的研究与进展[J];计算机科学与探索;2009年02期

7 于江生 ,俞士汶;中文概念词典的结构[J];中文信息学报;2002年04期

8 张会平;吕学强;施水才;李渝勤;;基于WordNet的语义分布词典建设[J];现代图书情报技术;2007年03期

9 刘扬,俞士汶,于江生;CCD语义知识库的构造研究[J];小型微型计算机系统;2005年08期

10 赵朋朋;崔志明;高岭;仲华;;关于中国Deep Web的规模、分布和结构[J];小型微型计算机系统;2007年10期



本文编号:1054092

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1054092.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a8acf***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com