当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于维基百科的语义Web搜索技术研究

发布时间:2017-05-04 10:16

  本文关键词:基于维基百科的语义Web搜索技术研究,由笔耕文化传播整理发布。


【摘要】:目前的Web搜索技术是基于关键词的搜索,信息的查全率和精确度仍然不能满足用户的需求,其效果常常不能使人满意。这是由于在Web搜索过程中,缺乏搜索引擎可读的语义信息,因而限制了计算机自动分析处理以及进一步的智能化处理的能力。因此,为了提高搜索引擎检索信息的精准度和智能性,传统的基于关键字的搜索引擎要向更智能的语义检索方向发展。语义搜索要有一个概念的语义空间网络作为支撑,维基百科(Wikipedia)是一个开放式的在线百科全书,它是世界最大的包含了大量人类知识和语义关系的知识库资源。如何充分利用维基百科的知识,为现有的搜索技术添加语义处理能力,优化信息检索过程,即成为本论文的研究课题。本文主要的工作如下:首先,针对维基百科中的信息组织及结构特点,抽取出语义信息。对维基百科数据的处理,我们应用了大数据处理的技术,构建了基于Hadoop的维基数据包处理云平台。通过建立一套基于对象模型的应用程序接口,得到了维基百科主题页面中我们感兴趣的语义信息,包括概念、类别、链接、摘要段(主题页面的第一段),这为后续的语义相关度计算提供了必要的结构性和内涵性信息。本文的处理技术还能为以后的维基百科大数据处理提供借鉴。其次,提出了一种计算词条语义相关度的新方法,称为WLA算法(Wikipedia Link and Abstract)。在上述对维基百科抽取出相关信息的基础上,我们重点研究了链接关系和摘要段的内容。链接关系(包括入链和出链)与摘要段公共词的特征能很好地反映出概念之间的联系,通过对其分别赋以不同的权重,实验结果显示WLA的Spearman相关系数达到了0.68,取得了令人满意的结果。最后,开发了语义搜索系统的原型。将我们提出的WLA算法集成到系统中,实现了能够提供普通用户和语义研究人员进行语义搜索的平台。该搜索系统以维基百科对词语的解释为背景知识,包括语义计算,语义概念查询和文本注释三大功能。语义计算功能可计算出词条语义相关性;语义概念查询系统提供基于维基百科的语义词典功能,对偏生词,多义词,歧义词进行语义解释,可以帮助用户扩展知识,能够增强搜索引擎处理查询的能力;文本注释功能对短文本中的专有名称进行注解,只要文本中的词条在维基百科有与之对应的主题页面,那么系统会对该词条进行注解并加入链接功能。该原型可作为语义搜索相关研究的测试平台。
【关键词】:维基百科 语义计算 搜索引擎
【学位授予单位】:天津理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【目录】:
  • 摘要5-6
  • Abstract6-9
  • 第一章 绪论9-15
  • 1.1 研究背景及意义9-10
  • 1.2 国内外研究现状10-12
  • 1.3 研究内容和方案12-13
  • 1.4 本文组织结构13-15
  • 第二章 相关技术研究15-27
  • 2.1 维基百科15-19
  • 2.2 Lucene技术19-22
  • 2.3 Nutch技术22-24
  • 2.4 Hadoop技术24-27
  • 第三章 语义相关度的研究27-37
  • 3.1 基于文本的语义相关度27-28
  • 3.2 基于链接的语义相关度28-29
  • 3.3 基于文本和链接的WLA语义相关度29-37
  • 3.3.1 数据处理30-31
  • 3.3.2 WLA语义计算算法31-33
  • 3.3.3 算法测试33-37
  • 第四章 基于维基百科的语义搜索系统设计37-48
  • 4.1 系统设计37-39
  • 4.1.1 系统总体设计37-38
  • 4.1.2 功能设计38
  • 4.1.3 中间处理模型设计38-39
  • 4.2 系统实施39-44
  • 4.2.1 系统运行平台39
  • 4.2.2 系统开发及展现39-44
  • 4.3 系统测试44-48
  • 第五章 总结与展望48-50
  • 5.1 总结48
  • 5.2 展望48-50
  • 参考文献50-53
  • 发表论文和科研情况说明53-54
  • 致谢54-55

【参考文献】

中国期刊全文数据库 前2条

1 赵飞;周涛;张良;马鸣卉;刘金虎;余飞;查一龙;李睿琪;;维基百科研究综述[J];电子科技大学学报;2010年03期

2 杨思洛;邱均平;;基于中英维基百科的网络引文分布分析[J];国家图书馆学刊;2012年06期

中国重要会议论文全文数据库 前1条

1 杨柳;何婷婷;涂新辉;;基于网络百科全书的中文关联语义知识获取[A];第五届全国青年计算语言学研讨会论文集[C];2010年

中国博士学位论文全文数据库 前1条

1 李峗;基于中文维基百科的语义知识挖掘相关研究[D];北京邮电大学;2009年

中国硕士学位论文全文数据库 前2条

1 崔琳;基于语义Web和Web挖掘的Blog智能检索系统研究[D];合肥工业大学;2008年

2 伍成志;基于维基百科的知识查找系统的研究与实现[D];华南理工大学;2012年


  本文关键词:基于维基百科的语义Web搜索技术研究,,由笔耕文化传播整理发布。



本文编号:344897

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/344897.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8996e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com