云环境下的舆情监测关键技术研究
本文选题:舆情监测 + 分布式爬虫 ; 参考:《西南科技大学》2017年硕士论文
【摘要】:为满足高校、医院等特殊行业领域单位的网络舆情需求,解决网络舆情工作中针对性不足、成本高、实时性低的问题,本文设计实现一套针对特殊行业领域的云环境下的舆情监测系统。主要工作包括:通过分析监测源的信息排列特征,利用分布式网络爬虫技术实现了舆情信息的快速采集系统,能够快速的爬取指定监测源的相关页面,能在5分钟的延时范围内采集到特定的网页信息,提高了数据的采集速率。利用基于HTML模版的文本抽取方法,实现页面文本数据的精确快速抽取。利用全文检索技术构建了全文检索引擎服务,并在此基础上实现了10分钟内发现舆情,平均准确率达到95%以上,平均召回率到70%以上的舆情发现效果。根据用户的实际需求,设计实现了云环境下的舆情监测系统,提供了舆情监测与管理功能。本文集成数据采集系统、舆情发现系统、舆情监测管理系统三个子系统形成云环境下的网络舆情监测系统,为高校、医院等非政府机构提供云环境下的在线舆情监测服务,实时性强。
[Abstract]:In order to meet the demand of network public opinion in universities, hospitals and other special industry units, solve the problems of lack of pertinence, high cost and low real-time performance in the work of network public opinion. In this paper, we design and implement a monitoring system of public opinion in cloud environment. The main work includes: by analyzing the information arrangement characteristics of the monitoring source and using distributed web crawler technology to realize the rapid collection system of public opinion information can quickly crawl the relevant pages of the designated monitoring source. It can collect the specific web page information in 5 minutes delay range, and improve the data acquisition rate. The accurate and fast extraction of page text data is realized by using HTML template based text extraction method. The full-text search engine service is constructed by using full-text retrieval technology, and the public opinion discovery effect is realized within 10 minutes. The average accuracy is more than 95%, and the average recall rate is more than 70%. According to the actual needs of users, the monitoring system of public opinion under cloud environment is designed and implemented, and the function of monitoring and managing public opinion is provided. This paper integrates the three subsystems of data acquisition system, public opinion discovery system and public opinion monitoring management system to form a network public opinion monitoring system in cloud environment, which provides online public opinion monitoring services for universities, hospitals and other non-governmental organizations in the cloud environment. Real-time ability.
【学位授予单位】:西南科技大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 李少兵;《二十五史多媒体全文检索阅读系统》评价[J];中国史研究动态;2000年11期
2 肖诗斌;互联网需要全文检索[J];中国计算机用户;2000年36期
3 傅军;;报纸数字化与全文检索方法研究[J];铁路计算机应用;2012年06期
4 张云;邓声菊;沈德钰;安蕾;;案说高效全文检索的途径与技巧[J];中国发明与专利;2012年09期
5 涤非;美国化学学会18种杂志实现全文检索[J];计算机与图书馆;1983年04期
6 杨则正;借助于Zylmage Web Server的全文检索[J];管理科学文摘;1998年08期
7 ;文海捞针——全文检索在北京日报社的应用[J];每周电脑报;1999年22期
8 刘凌云,章银良,郭秀丽;多媒体全文检索光盘的系统组成与检索原理[J];郑州轻工业学院学报;2000年01期
9 ;全文检索入佳境[J];微电脑世界;2000年37期
10 晓月;;全文检索原理及实现[J];程序员;2006年12期
相关会议论文 前8条
1 曾福萍;周定康;;基于索引服务器实现全文检索[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
2 史建斌;;军控核查数据库光盘全文检索功能的原理及实现[A];中国工程物理研究院科技年报(2005)[C];2005年
3 范志新;王宁;陶晓鹏;施伯乐;;开放式图书馆汉语检索结构[A];数据库研究进展97——第十四届全国数据库学术会议论文集(下)[C];1997年
4 朱虹;吴林;;DM4全文检索机制的设计[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
5 朱虹;黄欢;;DM4全文检索机制的改进[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
6 张谊岩;张霞;;OpenBASE中BLOB型文本数据全文检索的设计与实现[A];第十六届全国数据库学术会议论文集[C];1999年
7 刘亚军;刘延军;胡阳;;报刊图书数字资源公共服务平台项目规划设计[A];中国新闻技术工作者联合会2013年学术年会、五届五次理事会暨第六届“王选新闻科学技术奖”和优秀论文奖颁奖大会论文集(报业篇)[C];2013年
8 王富强;马德涛;张立朝;王建明;;地方志数据库全文信息检索研究[A];中国地理信息系统协会第四次会员代表大会暨第十一届年会论文集[C];2007年
相关重要报纸文章 前10条
1 冯贝;“工”于全文检索的数据库系统[N];科技日报;2001年
2 宁夏数据通信局 刘君;SQL Server 2000中全文检索的使用[N];计算机世界;2002年
3 郭莹;全文检索市场空间大[N];中国计算机报;2006年
4 陈玉荣;更多、更快、更新的检索系统[N];中国企业报;2000年
5 子华;从全文检索到信息整合[N];计算机世界;2003年
6 宁夏 刘君;SQL Server中全文检索的使用[N];电脑报;2001年
7 《金周刊》记者 康e,
本文编号:1992426
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1992426.html