基于网络爬虫和Lucene索引的互联网舆情监测系统设计与实现
本文关键词:军事文献搜索引擎架构的研究与实现,由笔耕文化传播整理发布。
《吉林大学》 2013年
基于网络爬虫和Lucene索引的互联网舆情监测系统设计与实现
周小丽
【摘要】:随着计算机技术的不断发展,使用IT技术实现虚拟网络舆情监控越来越受到政府、企业的重视。网络突发事件应急管理是公共安全保障的核心问题,应急管理与网络舆情有着密切的关系,近十多年来,随着信息化的普及,信息内容的爆炸式增长,使得从海量的网络数据发现和处理突发事件信息越来越重要和困难。而应急处理的时效性要求很高,往往要求采取即时措施,传统的采集和分析方式已很难满足这种实时性的需求,因此建立一个互联网舆情监控系统是很有必要的,该系统不仅要能发现事件,还要能够“发现早”,“发现全”。 根据权威机构调查,到2012年我国网民数量已经突破5亿关口,国内互联网普及率达到38.3%,其中,移动上网用户达到3.5亿。互联网活动参与者数量增长明显。如今,互联网被称为继电视、广播、纸媒之后的“第四媒体”。随着源源不断的网民参与,互联网取而代之,成为了社会舆论的晴雨表。主要体现在新闻网站、知名论坛、贴吧、博客等平台上,这类媒体也被统称为虚拟社会。由于网络的监管不严格,甚至漏洞百出,网民参与其中基本没有门槛,活动成本基本为零,但其影响却较现实更广泛、渗透更深,造成的社会影响不容忽视。如果任由其发展、不加以引导,那么,大量的负面互联网舆情信息充斥到虚拟社会中,无疑会给社会的长治久安造成不良影响,埋下社会隐患。对于政府机构,加强虚拟社会舆情监管、应对,积极化解危机,对维护社会稳定,实现我国的现代化建设,经济建设不断向前有着很重要的现实意义。 互联网是一个宝库,尤其是在互联网大数据时代,借助IT技术,实现对虚拟网络舆情的及时、全面的监控已经迫在眉睫。本文将主要介绍互联网舆情监控系统的设计与实现,以及网络爬虫(Web Crawler)和Lucene索引的优点和在互联网舆情监测系统中的应用。 本文设计的互联网舆情监控系统主要分为信息采集模块、信息检索模块、数据分析模块和数据展示模块。信息采集模块的核心是网络爬虫,采集范围覆盖整个互联网,包括新闻媒体、论坛、博客、微博客及视频类网站。信息检索模块的核心功能是实现大数据的快速、精确的检索,这里将用到支持Lucene索引的Mongo数据库,它将检索速度提高到5秒以内。还有数据分析模块和数据展示模块,分别用来对文本的语义进行分析和最终数据的展示。 网络爬虫,又被称为蜘蛛Spider,或是网络机器人、BOT等,这些都无关紧要,最重要的是:由于爬虫的存在,才使得搜索引擎有了丰富的资源。使用搜索引擎,使我们检索信息的能力获得了空前的提高,成本有效地降低,可以说,搜索引擎是现代的计算机技术、因特网技术与传统的索引理论相结合的成功典范。随着网络的普及,其影响力不断扩大,信息急速增长,网络毋庸置疑,已经成为了当今信息最大的载体。搜索引擎帮助我们实现了从海量的互联网获取信息提过了有效的途径。但是,网络世界是复杂的,多元化的,而用户对数据的获取是有方向性的,有目的性的,如Google、百度等面向整个虚拟社会的通用型的搜索引擎越来越凸显出其局限性,搜索引擎如何提供用户基于主题的快速、准确和深入的查询,是摆在我们面前的一个难题。网络爬虫作为搜索引擎的核心部件,就自然成为了我们研究攻克的主要方向,无论多么强大的搜素引擎,在后面,都有一个高效的网络爬虫为它服务。 本文还要介绍另外一个关键技术,Lucene索引,,一个高效的数据检索工具,在我要提到的舆情监控系统中,将起到不可或缺的作用。
【关键词】:
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【参考文献】
中国期刊全文数据库 前5条
1 梅中玲;;基于Web信息挖掘的网络舆情分析技术[J];中国人民公安大学学报(自然科学版);2007年04期
2 于琨;孙新领;;基于信息挖掘的高校网络舆情监测系统开发[J];河南机电高等专科学校学报;2012年01期
3 陈琼,苏文健;基于网页结构树的Web信息抽取方法[J];计算机工程;2005年20期
4 郎小伟;王申康;;基于Lucene的全文检索系统研究与开发[J];计算机工程;2006年04期
5 罗婷;李成;;如何开发舆情监测产品?——人民网舆情监测室的运作模式[J];中国记者;2010年06期
中国硕士学位论文全文数据库 前4条
1 周翊超;军事文献搜索引擎架构的研究与实现[D];南京理工大学;2008年
2 张书江;基于Java的垂直搜索引擎的设计与实现[D];安徽理工大学;2009年
3 张楠;面向汽车主题的垂直搜索引擎研究与实现[D];西南交通大学;2010年
4 王宝龙;面向新闻领域的文本数据获取系统的设计与实现[D];北京邮电大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 张敏;;基于确定性树自动机技术的信息抽取研究[J];才智;2011年36期
2 陶镇威;周雨程;;基于Compass框架的高级搜索系统的设计与实现[J];重庆理工大学学报(自然科学);2011年08期
3 蔡兵;胡敏;;基于Lucene2.0的书目搜索引擎设计[J];重庆图情研究;2009年01期
4 张淑华;;图书馆参考咨询系统新技术探析[J];黑龙江档案;2011年05期
5 王楠;;一种实现Web数据到XML文档的转换算法[J];大连海事大学学报;2010年03期
6 周杨;;基于Lucene的小型搜索引擎系统的架构与实现[J];电脑编程技巧与维护;2010年11期
7 谢峰;刘洪星;;基于Lucene的Web站内搜索引擎的研究[J];电脑知识与技术;2008年04期
8 林晶;;全文检索模型的检索性能研究[J];电脑知识与技术;2010年04期
9 陶荣;陈燕;;基于Lucene小型搜索引擎的研究与实现[J];大众科技;2010年02期
10 刘剑宇;;Web信息挖掘在涉警舆情监控分析系统建设中的应用研究[J];贵州警官职业学院学报;2010年05期
中国重要会议论文全文数据库 前1条
1 朱晓东;杨国俊;;聚类分析在网络舆情监测中的应用[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
中国博士学位论文全文数据库 前5条
1 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
2 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
3 张一文;突发性公共危机事件与网络舆情作用机制研究[D];北京邮电大学;2012年
4 王根生;面向群体极化的网络舆情演化研究[D];江西财经大学;2011年
5 郑文良;基于简单本体的农业P2P搜索引擎关键技术研究[D];沈阳农业大学;2013年
中国硕士学位论文全文数据库 前10条
1 陈继祥;基于J2EE的网络考试系统的研究与实现[D];南昌大学;2010年
2 樊春雷;基于语义分析的糖尿病健康教育系统研究与实现[D];华东理工大学;2011年
3 梁越岭;互联网舆情信息挖掘与群体行为分析[D];武汉理工大学;2010年
4 李海林;网络舆情热点信息发现及其倾向性研究[D];武汉理工大学;2010年
5 赵彦胜;基于web的无线电监测站远程故障诊断系统分析与设计[D];西安电子科技大学;2009年
6 马静;基于web的数字化资源全文检索系统的设计与实现[D];西安电子科技大学;2010年
7 刘照然;远程教育中智能答疑系统的研究与实现[D];西安电子科技大学;2010年
8 席敏;基于单汉字索引的全文检索系统的研究与实现[D];西安电子科技大学;2010年
9 吴代文;基于Lucene的二次全文检索系统设计与实现[D];西安电子科技大学;2009年
10 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 岐世峰;;MIS系统中权限管理的研究与实现[J];电脑开发与应用;2008年12期
2 侯汉清,薛鹏军;基于知识库的网页自动标引和自动分类系统的设计[J];大学图书馆学报;2004年01期
3 杨坚争;李朝平;;垂直搜索引擎及其应用[J];电子商务;2006年10期
4 张南平;程鸣;;基于模式识别视频搜索技术的研究[J];福建电脑;2007年08期
5 吴绍忠;;WEB信息挖掘与公安情报收集[J];中国人民公安大学学报(自然科学版);2006年04期
6 梅中玲;;基于Web信息挖掘的网络舆情分析技术[J];中国人民公安大学学报(自然科学版);2007年04期
7 董素玲;陈骏;;现代企业管理信息系统MIS的建设[J];广西轻工业;2009年01期
8 冯少丽;;管理信息系统在企业中的应用现状及存在问题浅析[J];华章;2009年01期
9 林亮景;试析网络犯罪[J];长治学院学报;2005年04期
10 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
中国博士学位论文全文数据库 前2条
1 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
2 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
中国硕士学位论文全文数据库 前10条
1 李振;网络舆情预测关键技术研究[D];郑州大学;2010年
2 罗强;基于粗糙集理论的知识发现在web文本挖掘上的应用研究[D];广西大学;2003年
3 常晓燕;基于Java的新闻搜索引擎的设计与实现[D];西南交通大学;2004年
4 张滨;中文文档分类技术研究[D];武汉大学;2004年
5 彭雅;文本分类算法及其应用研究[D];湖南大学;2004年
6 张治平;Web信息精确获取技术研究[D];国防科学技术大学;2004年
7 何贤平;基于J2EE架构的管理信息系统的研究[D];武汉理工大学;2006年
8 柯慧燕;Web文本分类研究及应用[D];武汉理工大学;2006年
9 王晓伟;垂直搜索引擎若干关键技术的研究[D];浙江大学;2007年
10 姜华;基于Lucene面向主题搜索引擎的研究与设计[D];华东师范大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 郑力明;易平;;基于HTMLParser信息提取的网络爬虫设计[J];微计算机信息;2009年15期
2 陈丽君;;深层网网络爬虫设计[J];计算机与信息技术;2009年Z2期
3 陈哲;;垂直搜索中网页抓取技术的研究[J];科技信息;2009年22期
4 贺财平;覃事刚;刘建勋;;Web服务搜索引擎的设计与实现[J];计算机应用与软件;2011年01期
5 刘明辉;张志平;张新民;;网络资源聚合方法探析[J];机械管理开发;2008年05期
6 王舜燕;李蕾;吴兵华;;基于ID3分类算法的深度网络爬虫设计[J];现代图书情报技术;2008年06期
7 詹恒飞;杨岳湘;方宏;;Nutch分布式网络爬虫研究与优化[J];计算机科学与探索;2011年01期
8 王芳;陈海建;;深入解析Web主题爬虫的关键性原理[J];微型电脑应用;2011年07期
9 陈汶滨;夏学梅;;基于聚焦爬虫的手机天气预报系统[J];今日科苑;2009年02期
10 刘磊安;符志强;;基于Lucene.net网络爬虫的设计与实现[J];电脑知识与技术;2010年08期
中国重要会议论文全文数据库 前10条
1 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
2 彭亮;卓新建;黄玮;范文庆;;基于网络爬虫的XSS漏洞扫描系统的设计与实现[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年
3 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
4 邹永斌;陈兴蜀;王文贤;;一个高性能Web资源收集系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
5 侯丹青;李舟军;邹蕴珂;;一种跨站脚本漏洞检测系统的设计与实现[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
6 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
7 刘凡平;高艳华;于炯;张伟;;基于关键决策方法的站内搜索研究与实现[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
8 王勇;刘奕群;张敏;马少平;茹立云;;基于用户兴趣分析的网页生命周期建模(英文)[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 朴星海;赵铁军;郑德权;张迪;;面向Blog的网络爬行器设计与实现[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
10 刘祥涛;龚才春;曾依灵;白硕;鲍旭华;;Kad网络节点共享资源探测分析[A];第五届全国信息检索学术会议论文集[C];2009年
中国重要报纸全文数据库 前9条
1 Victor;[N];人民邮电;2004年
2 伍裕标;[N];中国电脑教育报;2003年
3 王猛祥 徐明华;[N];中国计算机报;2004年
4 商建刚;[N];中国计算机报;2001年
5 记者 郭丽君;[N];光明日报;2010年
6 记者 邵素宏;[N];人民邮电;2010年
7 马季;[N];人民日报海外版;2010年
8 记者 曹莉;[N];中国建设报;2011年
9 上海 陈曦;[N];电脑报;2010年
中国博士学位论文全文数据库 前2条
1 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
中国硕士学位论文全文数据库 前10条
1 赵茉莉;网络爬虫系统的研究与实现[D];电子科技大学;2013年
2 金梅;网络爬虫性能提升与功能拓展的研究与实现[D];吉林大学;2012年
3 芮虎;比价购物平台中网络爬虫的设计与实现[D];华东理工大学;2013年
4 龚秋艳;并行网络爬虫设计与实现[D];华东师范大学;2010年
5 赵鹏程;分布式书籍网络爬虫系统的设计与实现[D];西南交通大学;2014年
6 段兵营;搜索引擎中网络爬虫的研究与实现[D];西安电子科技大学;2014年
7 张大伟;基于动态概念图的主题网络爬虫的设计与分析[D];辽宁科技大学;2013年
8 王毅桐;分布式网络爬虫技术研究与实现[D];电子科技大学;2012年
9 黄晓鹏;基于网络爬虫技术的内容探测系统设计与实现[D];北京邮电大学;2010年
10 么士宇;基于分布式计算的网络爬虫技术研究[D];大连海事大学;2011年
本文关键词:军事文献搜索引擎架构的研究与实现,由笔耕文化传播整理发布。
本文编号:127091
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/127091.html