基于维基百科的知识查找系统的研究与实现
发布时间:2020-02-10 08:03
【摘要】:近年来,随着互联网技术的快速发展,维基百科已经成为全球最大的开放性内容知识平台之一,而且其所包含的知识以及规模几乎每时每刻都在更新和增加,使得维基百科在多个领域内的应用越来越广泛,其中把维基百科当作一个自然的大规模语料资源进行自然语言处理方面的研究取得了不少成果。随着维基百科规模和内容的不断丰富,其用户数量也是保持不断增长,然而维基百科站点内部的搜索引擎却仍然是传统的全文匹配式搜索,且每个条目的解释文档中虽然含有指向其他条目的内部链接,但是有很多链接与这个条目并没有语义上的关系。本文认为,良好的搜索应该是基于语义的,因此如何在维基百科内搜索信息时增添语义功能是一个研究重点。 搜索时添加语义相关功能可以在搜索时计算与搜索条目具有一定相关性的条目并呈现给用户,但是由于维基百科数据量巨大,语义相关性计算复杂,整个过程将会耗费大量的时间,对检索效率和用户体验都是大大不利的。因此本文提出一种利用维基百科语料资源构建语义知识库来提高查询效率的方法。 本文首先对维基百科的特性,包括其分类结构、页面结构、页面链接结构以及各种数据的存储格式进行了详细研究,然后制定了一套能够有效抽取维基百科结构化信息的流程,从而得到本文研究赖以实现的基础语料资源,并在该语料资源的基础上,提出一种语义相关度的计算方法。接着本文根据预处理过程得到的语料资源,结合传统语义知识库的知识表示形式和语义特征,提出一种语义知识的表现形式,并据此构建了一个知识库。最后本文在构建的知识库的基础上,实现了一个简单的知识查找系统,可以使用户在查询某个知识的时候,方便快捷的查看与当前知识有语义相关的其他知识。
【图文】:
第一章 绪论第一章 绪论1.1 研究背景及意义维基百科(Wikipedia)[1]是一个基于 Wiki 技术的全球性多语言百科全书,同时也是一部在互联网上呈现的网络百科全书网站,同时也是一个动态的、号称可自由访问和编辑的全球知识体。维基百科全书,自 2001 年 1 月 13 日上线,2001 年 1 月 15 日正式成立,截至 2012年 3 月时,维基百科条目数第一的英语维基百科已有 390 万条条目,而全球所有 285 中语言的独立运作版本共突 2000 万条条目。中文维基百科自 2002 年 10 月建立以来,至今已经迅速成长。目前,中文维基百科的总条目数已达到 42 万多条,并设计到人文、科学、历史、地理、艺术、社会等近 170 个主题(图 1-1)。
华南理工大学硕士学位论文网站之一。然而,在庞大如维基百科这样的系统中,如何提高搜索精度,,帮助用户精确定位知识点却是一个不尽人意的地方。目前,包括维基百科在内,大多数的开放内容平台的搜索都局限于传统的全文匹配方法,即只提供基于关键字的精确匹配搜索。例如,在维基百科目前的查询机制中,如果用户只是输入简单的关键词进行查询,假如输入是“华南理工大学”,搜索的部分结果如图 1-2。
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.1
本文编号:2578111
【图文】:
第一章 绪论第一章 绪论1.1 研究背景及意义维基百科(Wikipedia)[1]是一个基于 Wiki 技术的全球性多语言百科全书,同时也是一部在互联网上呈现的网络百科全书网站,同时也是一个动态的、号称可自由访问和编辑的全球知识体。维基百科全书,自 2001 年 1 月 13 日上线,2001 年 1 月 15 日正式成立,截至 2012年 3 月时,维基百科条目数第一的英语维基百科已有 390 万条条目,而全球所有 285 中语言的独立运作版本共突 2000 万条条目。中文维基百科自 2002 年 10 月建立以来,至今已经迅速成长。目前,中文维基百科的总条目数已达到 42 万多条,并设计到人文、科学、历史、地理、艺术、社会等近 170 个主题(图 1-1)。
华南理工大学硕士学位论文网站之一。然而,在庞大如维基百科这样的系统中,如何提高搜索精度,,帮助用户精确定位知识点却是一个不尽人意的地方。目前,包括维基百科在内,大多数的开放内容平台的搜索都局限于传统的全文匹配方法,即只提供基于关键字的精确匹配搜索。例如,在维基百科目前的查询机制中,如果用户只是输入简单的关键词进行查询,假如输入是“华南理工大学”,搜索的部分结果如图 1-2。
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.1
【参考文献】
相关期刊论文 前5条
1 田久乐;赵蔚;;基于同义词词林的词语相似度计算方法[J];吉林大学学报(信息科学版);2010年06期
2 张涛,杨尔弘;基于上下文词语同现向量的词语相似度计算[J];电脑开发与应用;2005年03期
3 盛志超;陶晓鹏;;基于维基百科的语义相似度计算方法[J];计算机工程;2011年07期
4 罗志成;马费成;吴晓东;宋倩倩;;从维基分类系统构建中文语义词典研究[J];信息系统学报;2008年02期
5 董振东;语义关系的表达和知识系统的建造[J];语言文字应用;1998年03期
相关博士学位论文 前1条
1 李峗;基于中文维基百科的语义知识挖掘相关研究[D];北京邮电大学;2009年
相关硕士学位论文 前2条
1 苏小康;基于维基百科构建语义知识库及其在文本分类领域的应用研究[D];华中师范大学;2010年
2 刘巧玲;维基百科上的语义搜索[D];上海交通大学;2009年
本文编号:2578111
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2578111.html