当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向分布式数据源的语义垂直搜索系统研究与实现

发布时间:2018-06-27 22:08

  本文选题:垂直搜索 + 领域本体 ; 参考:《哈尔滨工业大学》2013年硕士论文


【摘要】:近年来,随着Internet技术的高速发展,Web信息爆炸性增长,互联网已成为海量数据空间。人们从这些海量数据中得到自己需要的信息变的越来越困难,此时搜索技术变的尤为重要。随着搜索引擎技术的高速发展,通用搜索引擎的功能变的日益强大,,这使得通用搜索引擎的结构也日益复杂,拥有庞大的索引数据和十分宽泛的主题,并且主题与主题之间无分类。而且通用搜索的搜索深度不够,查准率较低,时效性较差等这些局限性决定了通用搜索并不能满足特定用户的需求。由于人们对特定领域、特殊行业的个性化需求,人们迫切需要更有针对性、更具搜索深度的搜索引擎,在这种情况下,面向特定领域的垂直搜索技术应运而生。目前已有很多垂直搜索引擎,如生活搜索酷讯、旅游搜索去哪儿网等,但这些垂直搜索引擎仍采用基于关键词的搜索方式,无法满足用户语义级别的检索要求。 为了研究和实现语义层面的垂直搜索,提高检索质量,依据课题背景和课题来源,本文主要研究分布式环境下语义垂直搜索技术和系统实现。主要包括研究领域本体的构建,基于领域本体的语义查询扩展方法,基于DOM树的信息抽取,采用最新索引Lucene4.x等技术实现语义级别的垂直搜索,并做出实验数据分析。本文研究和完成的主要工作有: (1)通过计算机安全领域信息的采集、过滤、归类等处理构建面向计算机安全领域的领域本体,由于计算机安全领域涉及广泛,出于时间上的考虑,本文针对计算机安全领域狭窄范围进行本体的构建。并对各类的属性和类之间的关系进行定义描述,实现计算机安全领域知识的表示和信息组织。 (2)根据计算机安全领域独有的特点,使用基于规则的DOM树的信息抽取技术初步实现对计算机安全领域的相关信息的自动抽取,为将来本体的编辑和维护打下基础。 (3)对本体中的实例、概念、对象属性、数据属性以及类与类之间的关系构建索引,利用索引完成对用户的查询请求的语义分析和语义扩展,实现语义级别的信息检索。 (4)根据某所提供的语义词典和关系范畴构建概念词语层次体系,为语义查询扩展打下基础。 本文设计并实现了基于计算机安全领域本体的语义垂直搜索服务。实验表明,本文设计语义垂直搜索系统能较好的解决目前基于关键字检索中存在的机械式搜索缺陷以及查询精度不够等的缺陷,说明基于领域本体的语义垂直搜索具有现实意义。
[Abstract]:In recent years, with the rapid development of Internet technology and the explosive growth of Web information, the Internet has become a massive data space. It is becoming more and more difficult for people to get the information they need from these massive data, and the search technology is becoming more and more important. With the rapid development of search engine technology, the function of general search engine becomes more and more powerful, which makes the structure of general search engine more and more complex, with huge index data and very broad theme. And there is no classification between themes and themes. And the limitations of general search, such as insufficient search depth, low precision rate and poor timeliness, determine that general search can not meet the needs of specific users. Because of the individualized demand of specific fields and industries, people urgently need search engines with more pertinence and search depth. In this case, the vertical search technology for specific fields emerges as the times require. At present, there are many vertical search engines, such as life search cool news, travel search where to go to the net, but these vertical search engines still use the search method based on keywords, which can not meet the users' semantic level of retrieval requirements. In order to study and realize the vertical search in semantic level and improve the retrieval quality, according to the background and source of the subject, this paper mainly studies the technology and system implementation of semantic vertical search in distributed environment. It mainly includes the construction of domain ontology, the extension method of semantic query based on domain ontology, information extraction based on Dom tree, vertical search of semantic level using the latest index Lucene 4.x, and the analysis of experimental data. The main works of this paper are as follows: (1) the domain ontology of computer security domain is constructed by collecting, filtering and classifying the information in computer security domain. For the sake of time, this paper constructs ontology for the narrow scope of computer security field. The definition and description of each kind of attribute and the relationship between classes are carried out to realize the representation and information organization of computer security domain knowledge. (2) according to the unique characteristics of computer security field, The information extraction technology based on rule based Dom tree is used to realize the automatic extraction of relevant information in computer security domain, which lays the foundation for the editing and maintenance of ontology in the future. (3) for the instance, concept, object attribute of ontology. The data attribute and the relation between class and class are used to construct index, and the semantic analysis and semantic extension of query request of user are accomplished by using index. The semantic level information retrieval is realized. (4) based on the semantic dictionary and relational category, the concept word hierarchy is constructed, which lays the foundation for semantic query expansion. A semantic vertical search service based on computer security domain ontology is designed and implemented in this paper. Experiments show that the design of semantic vertical search system in this paper can solve the defects of mechanical search and query accuracy in keyword retrieval. It shows that the semantic vertical search based on domain ontology is of practical significance.
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 赵宏中;李亚;;垂直搜索引擎应用研究[J];现代商贸工业;2010年04期

2 秦茜;;期待搜狗抹平新账旧债马云张朝阳合谋垂直搜索[J];IT时代周刊;2010年17期

3 刘金亮;苏琳;石云;;基于Nutch的垂直搜索技术研究[J];电脑知识与技术;2011年24期

4 ;有了百度、Google,还要别的搜索吗?[J];电脑爱好者;2007年23期

5 燕苗;;搜索引擎技术研究与发展[J];科技传播;2011年10期

6 孔祥春;李义杰;郑凯明;;垂直搜索引擎应用研究[J];计算机系统应用;2009年07期

7 郑凯明;;垂直搜索引擎应用研究[J];赤峰学院学报(自然科学版);2011年02期

8 刘运强;;垂直搜索引擎的研究与设计[J];计算机应用与软件;2010年07期

9 姜明媚;;完美搜索[J];互联网周刊;2007年05期

10 李宇宁;忻展红;;移动搜索业务发展趋势分析[J];现代通信;2007年Z5期

相关会议论文 前10条

1 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年

2 周明;刘晓华;蒋龙;Matt Scott;;利用网络挖掘技术建立英语学习平台[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

3 刘悦;许洪波;程学旗;;互联网挖掘和搜索的研究进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

4 刘源;詹舒波;;基于Solr的行业垂直搜索平台的研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年

5 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

6 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年

7 罗伟;李陶深;;一种基于本体的个性化搜索引擎模型[A];广西计算机学会2006年年会论文集[C];2006年

8 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年

9 张志强;孟庆海;谢晓芹;;个性化的社会标签查询扩展技术研究[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年

10 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

相关重要报纸文章 前10条

1 魏蓓;中文商业搜索引擎提供垂直搜索服务[N];市场报;2006年

2 ;移动垂直搜索开拓中国搜索新天地[N];人民邮电;2006年

3 李永胜;垂直搜索:Google们漏掉的空档?[N];中国计算机报;2006年

4 沉风;垂直搜索:互联网服务生活新方向[N];人民邮电;2007年

5 薛娟;垂直搜索盯紧风投的口袋?[N];中国经济时报;2006年

6 姜蓉;垂直搜索是搜索市场的新“钱景”[N];中国经营报;2005年

7 苏娟;中移动即将上线无线音乐垂直搜索业务[N];中国计算机报;2008年

8 建平;专业垂直搜索升温[N];计算机世界;2005年

9 本报记者 杜华斌;——垂直搜索使网上购物更容易[N];科技日报;2005年

10 郭白岩;垂直搜索正在抢综合搜索的“饭碗”[N];中国经营报;2008年

相关博士学位论文 前10条

1 管虎;普适环境下轻量级垂直搜索中数据挖掘理论研究[D];上海交通大学;2013年

2 陈德品;基于迁移学习的跨领域排序学习算法研究[D];中国科学技术大学;2010年

3 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年

4 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年

5 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年

6 王树梅;信息检索相关技术研究[D];南京理工大学;2007年

7 刘东飞;智能双语搜索方法及搜索引擎的研究[D];武汉理工大学;2009年

8 朱鲲鹏;基于Web日志挖掘的智能信息检索研究[D];哈尔滨工业大学;2009年

9 王一川;基于内容的海量文本探索式查询导引中若干关键技术的研究[D];北京邮电大学;2011年

10 王俊义;正负相关反馈与查询扩展技术的研究[D];内蒙古大学;2012年

相关硕士学位论文 前10条

1 宋国;面向分布式数据源的语义垂直搜索系统研究与实现[D];哈尔滨工业大学;2013年

2 易平;生活服务行业垂直搜索的设计与实现[D];暨南大学;2010年

3 王振华;档案领域垂直搜索技术的研究与实现[D];东华大学;2011年

4 史磊峰;移动垂直搜索系统的研究[D];北京交通大学;2010年

5 雷洪;一个垂直搜索系统的设计与实现[D];中山大学;2012年

6 邬亚文;威客垂直搜索系统的设计与实现[D];华南理工大学;2010年

7 王晶;基于垂直搜索技术的竞争情报采集系统的设计与实现[D];上海交通大学;2011年

8 杨衍鹏;基于垂直搜索的移动阅读产品设计与研究[D];湖南大学;2011年

9 曾铭;垂直搜索技术在社交网站中的应用与研究[D];北京邮电大学;2013年

10 陶秋红;中文垂直搜索技术的研究与实现[D];河北科技大学;2012年



本文编号:2075437

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2075437.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b8d24***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com