当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向主题的垂直搜索引擎系统的研究与实现

发布时间:2018-07-31 12:24
【摘要】:针对通用搜索引擎的信息量大、查询不准确、深度不够等问题,给出了面向主题的垂直搜索引擎的体系结构,设计了垂直搜索引擎系统的爬行策略,对系统核心信息采集模块运用了多线程技术及基于VSM的主题相关度判断算法进行主题网页爬行,并通过Lucene.Net的索引与检索技术建立系统的检索算法,实现了一个面向特定主题的垂直搜索引擎应用系统.实验测试结果表明,该系统具有较高的提取效率,其检索的准确率、召回率均大大高于通用搜索引擎,具有较好的实用价值和商业应用前景.
[Abstract]:Aiming at the problems of large amount of information, inaccurate query and insufficient depth of general search engine, the architecture of topic-oriented vertical search engine is presented, and the crawling strategy of vertical search engine system is designed. Multi-thread technology and subject correlation judgment algorithm based on VSM are applied to the core information collection module of the system, and the retrieval algorithm of the system is established by the index and retrieval technology of Lucene.Net. A specific topic oriented vertical search engine application system is implemented. The experimental results show that the system has high extraction efficiency, its retrieval accuracy and recall rate are much higher than that of the general search engine, and it has good practical value and commercial application prospect.
【作者单位】: 上海理工大学管理学院;南通大学计算机科学与技术学院;复旦大学计算机科学技术学院;
【基金】:国家自然科学基金项目(61003001,71071098) 江苏省自然科学基金项目(BK2010280) 南通市科技计划项目(K2008018,K2008031)
【分类号】:TP391.3

【参考文献】

相关期刊论文 前6条

1 赵洋;滕桂法;张玉新;何冬梅;;基于Internet的农业信息垂直搜索引擎的设计[J];河北农业大学学报;2009年06期

2 刘运强;;垂直搜索引擎的研究与设计[J];计算机应用与软件;2010年07期

3 李广丽;刘觉夫;;垂直搜索引擎系统的研究与实现[J];情报杂志;2009年10期

4 张昌年;;一种基于VSM的检测相似重复记录的方法[J];微电子学与计算机;2008年08期

5 刘海峰;姚泽清;汪泽焱;张学仁;;基于位置的文本特征加权方法研究[J];微电子学与计算机;2009年02期

6 吴金红;张玉峰;王翠波;;面向主题的网络竞争情报采集系统[J];现代图书情报技术;2006年12期

【共引文献】

相关期刊论文 前10条

1 曹建军;刁兴春;杜瀊;王芳潇;张潇毅;;基于蚁群特征选择的相似重复记录分类检测[J];兵工学报;2010年09期

2 赵洋;滕桂法;张玉新;何冬梅;;基于Internet的农业信息垂直搜索引擎的设计[J];河北农业大学学报;2009年06期

3 马翔;;粒子群优化BP神经网络用于重复记录检测[J];辽宁工程技术大学学报(自然科学版);2010年05期

4 朱学芳;冯曦曦;;面向农业主题搜索引擎设计与实现[J];安徽农业科学;2011年35期

5 马翔;;基于粒子群优化BP神经网络的重复记录检测方法[J];湖南涉外经济学院学报;2010年04期

6 曹建军;刁兴春;汪挺;王芳潇;;领域无关数据清洗研究综述[J];计算机科学;2010年05期

7 刘海峰;刘守生;汪泽焱;;一种基于类别信息的改进文本特征选择[J];计算机应用与软件;2010年06期

8 马伟平;;网上农业信息资源开发与应用的现状及前景[J];内蒙古科技与经济;2010年16期

9 吴庆辉;蔡海洋;吕精巧;;基于改进型遗传神经网络的相似重复记录检测[J];计算机测量与控制;2011年05期

10 康亚娟;;站内搜索的研究与实现[J];信息技术;2011年08期

相关会议论文 前1条

1 蒋勇青;杨奕虹;杨贺;;论数据清洗对信息检索质量的影响及清洗方法[A];2011年中国索引学会年会暨成立二十周年庆典论文集[C];2011年

相关硕士学位论文 前10条

1 冯叶磊;基于隐语义的中医药文献搜索引擎[D];浙江大学;2011年

2 宋艳辉;基于语义Web Service的竞争情报系统构建研究[D];华中师范大学;2009年

3 赵治军;OAI-PMH中元数据相似度计算的研究与实现[D];太原科技大学;2009年

4 周震;基于语义的知识资源搜索与集成研究[D];东华大学;2010年

5 陈向东;宠物用品垂直搜索引擎研究与设计[D];西北农林科技大学;2010年

6 邬亚文;威客垂直搜索系统的设计与实现[D];华南理工大学;2010年

7 孙华昱;Lucene在医学影像资源检索平台中的应用[D];沈阳工业大学;2011年

8 杜洪伟;软件安全领域垂直搜索引擎的优化设计与实现[D];天津大学;2010年

9 张朝威;面向企业竞争情报的主题搜索研究与实现[D];西安电子科技大学;2010年

10 王培顺;互联网教育舆情监测系统的设计与实现[D];华中师范大学;2011年

【二级参考文献】

相关期刊论文 前10条

1 丁璇,侯汉清,章成志;中文网页标引源主题表达能力的调查统计[J];大学图书馆学报;2002年06期

2 张红斌;;网上求职机器人的软件设计[J];华东交通大学学报;2006年01期

3 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期

4 林海霞;原福永;陈金森;刘俊峰;;一种改进的主题网络蜘蛛搜索算法[J];计算机工程与应用;2007年10期

5 俞荣华;田增平;周傲英;;一种检测多语言文本相似重复记录的综合方法[J];计算机科学;2002年01期

6 张裔智;赵毅;汤小斌;;MD5算法研究[J];计算机科学;2008年07期

7 欧阳柳波,李学勇,李国徽,王鑫;专业搜索引擎搜索策略综述[J];计算机工程;2004年13期

8 邱越峰,田增平,季文,

本文编号:2155576


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2155576.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3f0fa***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com