面向主题搜索的网络爬虫信息采集策略研究
本文关键词:面向主题搜索的网络爬虫信息采集策略研究
【摘要】:基于主题搜索的主题网络爬虫,只抓取与用户主题相关的页面。在深入分析主题页面分布特征和主题相关性判别算法的基础上,提出了一个面向主题搜索的网络爬虫模型,它很好地克服了通用搜索引擎准确率偏低、信息内容相对陈旧、信息分布范围不均衡等不足。实验结果表明,尽管基于主题爬虫的搜索增加了内存使用率,但也成倍提升了搜索的准确性,提高了抓取效率以及抓取结果的利用率。
【作者单位】: 仪征技师学院电子信息系;
【关键词】: 搜索引擎 主题爬虫 信息采集
【分类号】:TP391.3
【正文快照】: 0引言当前,互联网迅速发展,网络上多元化信息呈指数级增长,大数据时代已经到来,网络逐渐变成涵盖全球的非结构化数据库。鉴于网络的分布式特性,网络上的各种信息多是无规律的,很难对它进行结构化管理。如何高效提取和利用这些信息成为网络信息检索技术研究的重点。传统通用搜
【参考文献】
中国硕士学位论文全文数据库 前1条
1 朱良峰;主题网络爬虫的研究与设计[D];南京理工大学;2008年
【共引文献】
中国期刊全文数据库 前1条
1 王二红;寿永熙;马志强;李静;;多线程搜索器的设计与实现[J];内蒙古农业大学学报(自然科学版);2010年03期
中国硕士学位论文全文数据库 前10条
1 王佳;支持Ajax技术的主题网络爬虫系统研究与实现[D];北京交通大学;2011年
2 龚真平;基于web文献的数据挖掘研究应用[D];西南交通大学;2011年
3 单大甫;基于网络评论的文本倾向性分类技术的研究与实现[D];国防科学技术大学;2010年
4 李蓉;面向主题的搜索引擎的设计与实现[D];华东交通大学;2011年
5 邢敏玲;基于网页分块的主题爬虫方法研究[D];重庆大学;2011年
6 卢振;面向教育新闻的主题爬虫设计与实现[D];华中科技大学;2011年
7 严鸿毅;基于聚焦爬虫的网上药品信息监测系统[D];浙江工业大学;2011年
8 吕赛辉;主题爬虫关键技术研究及应用[D];浙江工业大学;2009年
9 刘鹏鹏;面向患者需求的医学搜索引擎的研究与实现[D];浙江大学;2010年
10 张红云;基于页面分析的主题网络爬虫的研究[D];武汉理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前9条
1 瞿锋;陈纪元;;汉语自动分词算法综述[J];福建电脑;2006年04期
2 张茂元;张金隆;卢正鼎;邹春燕;;基于特征相关学习的网页信息提取方法[J];华中科技大学学报(自然科学版);2007年07期
3 李学勇,欧阳柳波,李国徽,钟敏娟;网络蜘蛛搜索策略比较研究[J];计算机工程与应用;2004年04期
4 李永平,程莉,叶卫国;基于隐含语义的kNN文本分类研究[J];计算机工程与应用;2004年06期
5 欧阳柳波,李学勇,李国徽,王鑫;专业搜索引擎搜索策略综述[J];计算机工程;2004年13期
6 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期
7 马亮,陈群秀,王俊,徐国伟;智能Web中文主题信息收集系统IRobot的设计[J];中文信息学报;2002年05期
8 崔维梅;范荣鹏;;搜索引擎技术的现状和热点[J];青年记者;2006年16期
9 傅向华,冯博琴,马兆丰,何明;可在线增量自学习的聚焦爬行方法[J];西安交通大学学报;2004年06期
中国博士学位论文全文数据库 前1条
1 董道国;高维数据索引结构研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前4条
1 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年
2 王思力;面向大规模信息检索的中文分词技术研究[D];中国科学院研究生院(计算技术研究所);2006年
3 刘玮玮;搜索引擎中主题爬虫的研究与实现[D];南京理工大学;2006年
4 冯月;基于专业搜索引擎网络蜘蛛搜索策略研究[D];电子科技大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 彭轲;廖闻剑;;基于浏览器服务的网络爬虫[J];硅谷;2009年04期
2 王江红;朱丽君;李彩虹;;一种新型网络爬虫的设计与实现[J];微计算机信息;2010年03期
3 于成龙;于洪波;;网络爬虫技术研究[J];东莞理工学院学报;2011年03期
4 焦赛美;;网络爬虫技术的研究[J];琼州学院学报;2011年05期
5 宋海洋;刘晓然;钱海俊;;一种新的主题网络爬虫爬行策略[J];计算机应用与软件;2011年11期
6 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期
7 邹海亮;孙莉;;可定制的聚焦网络爬虫[J];电子科技;2009年01期
8 杨松梅;;网络爬虫[J];硅谷;2009年15期
9 张红云;刘炜;熊前兴;;一种基于语义本体的网络爬虫模型[J];计算机应用与软件;2009年11期
10 张洪辰;;新浪微博数据抓取——高级搜索[J];信息与电脑(理论版);2013年11期
中国重要会议论文全文数据库 前4条
1 夏诏杰;郭力;李晓霞;;化学主题网络爬虫的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
2 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
3 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
4 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
中国硕士学位论文全文数据库 前10条
1 龚秋艳;并行网络爬虫设计与实现[D];华东师范大学;2010年
2 么士宇;基于分布式计算的网络爬虫技术研究[D];大连海事大学;2011年
3 陈奋;过滤型网络爬虫的研究与设计[D];厦门大学;2007年
4 金梅;网络爬虫性能提升与功能拓展的研究与实现[D];吉林大学;2012年
5 芮虎;比价购物平台中网络爬虫的设计与实现[D];华东理工大学;2013年
6 赵茉莉;网络爬虫系统的研究与实现[D];电子科技大学;2013年
7 谭龙远;基于领域的网络爬虫技术的研究与实现[D];武汉理工大学;2009年
8 张红云;基于页面分析的主题网络爬虫的研究[D];武汉理工大学;2010年
9 赵鹏程;分布式书籍网络爬虫系统的设计与实现[D];西南交通大学;2014年
10 于怀宝;面向建材信息的网络爬虫系统的设计与实现[D];北京交通大学;2015年
,本文编号:940671
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/940671.html