当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于J2EE的网络舆情分析系统的设计与实现

发布时间:2018-09-19 18:42
【摘要】:随着网络信息的极速膨胀,各类新闻网站,论坛上的信息越来越庞大。在如此庞大的数据中,快速且准确的找到和用户关心的主题有关的新闻条目或是论坛主题变得越来越困难。目前Google、百度这样的搜索引擎提供的爬取结果的主题过于广泛,时效性也难以保证,加上一些和关键词相关的结果位置被购买,往往导致检索的时效性,相关性,人工检索的效率皆不如人意,满足不了特定领域用户的精准搜索的需要。为此本文的目的就是实现一个精准的对页面时效性,网络内容相关性的和搜索关键词高度匹配的网络爬虫系统,加之准确的分类分析,以达到网络舆情监控的目的。 随着互联网治安越来越成为构建和谐精神文明建设的一个重要组成部分,对网络水军与网络敌对势力的防范,对来自人民的声音的听取变得越来越重要。而这也导致了国内目前做舆论监控为目的的网络爬虫系统的公司层出不穷,本人实习所在单位就是这样一家专注于特定用户群的互联网公司。 本文所描述的网络舆情分析系统的数据来源为目前国内主要微博、论坛(如西祠,天涯,新浪,贴吧)和新闻网站(新浪等门户),以及百度,奇虎新闻等专业搜索引擎的结果页面。网页递归地抓取完成后使用HtmlParser这样一个开源的网页解析工具解析出主要结构,进行基于时间,主题相关性,内容相关度的分类过滤,最后更新到数据库中供前台Jsp页面访问。爬虫支持定时任务与ad-hoc即时触发。逻辑层面使用了一些如Spring、Hibernate、Struts这样的开源技术来构建MVC-based的业务处理系统,后台的采集、解析、过滤等模块还使用了诸如Berkeley DB、Apache Lucene、HtmlParser、MMAnalyzer等开源技术来完善系统。 在这个系统中本人设计并实现了采集中心子模块、解析模块以及分类分析模块。论文主要描述了这几大模块的相关工作,包括需求分析、具体设计(流程图、类图)以及关键代码的实现。最后描述了系统的缺点与待改进之处。
[Abstract]:With the rapid expansion of network information, all kinds of news websites and forums are getting more and more information. In such huge data, it is becoming more and more difficult to find news items or forum topics related to topics of concern to users quickly and accurately. At present, search engines such as Google, Baidu provide a wide range of topics for crawling results, and the timeliness is difficult to guarantee. In addition, some key words related to the results are purchased, which often leads to the timeliness and relevance of retrieval. The efficiency of manual retrieval is not satisfactory, which can not meet the needs of users in a specific field of accurate search. Therefore, the purpose of this paper is to achieve a precise web crawler system with the accuracy of page timeliness, network content correlation and high matching of search keywords, together with accurate classification and analysis, in order to achieve the purpose of monitoring network public opinion. As Internet public order becomes an important part of constructing harmonious spiritual civilization, it is more and more important to guard against the network naval forces and network hostile forces, and to listen to the voices of the people. This has also led to the emergence of domestic public opinion monitoring for the purpose of the network crawler system companies, my internship in the unit is such a focus on specific user groups of Internet companies. The data sources of the network public opinion analysis system described in this paper are currently the main domestic Weibo, forums (such as Xici, Tianya, Sina, Tiefa) and news websites (Sina and other portals), as well as Baidu, Qihoo News and other professional search engine results page. After the web page is fetched recursively, we use HtmlParser, an open source web page parsing tool, to analyze the main structure and filter it based on time, topic correlation and content correlation. Finally, it is updated to the database for the foreground Jsp page to visit. Reptiles support timing tasks and ad-hoc immediate triggers. At the logic level, some open source technologies such as Spring,Hibernate,Struts are used to build MVC-based business processing system, and the modules of background acquisition, parsing, filtering and so on are used to perfect the system by using open source technology such as Berkeley DB,Apache Lucene,HtmlParser,MMAnalyzer. In this system, I designed and implemented the collection center sub-module, analysis module and classification analysis module. This paper mainly describes the related work of these modules, including requirements analysis, specific design (flow chart, class diagram) and the implementation of key codes. In the end, the shortcomings of the system and the points for improvement are described.
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3

【相似文献】

相关期刊论文 前10条

1 孙宏彬,苏长龄;基于J2EE三层结构分布系统设计与实现[J];齐齐哈尔大学学报;2002年04期

2 潘锦基,周良,丁秋林;基于J2EE的物流信息系统设计与实现[J];计算机工程与应用;2003年26期

3 姚睿,彭舰,周明康;基于J2EE的学习管理系统[J];计算机应用;2003年09期

4 杨鏖丞,孟波;基于J2EE构建B2B电子商务平台[J];计算机应用研究;2003年03期

5 方鹏,霍亮;基于J2EE环境下EJB结构的Web GIS实现[J];测绘工程;2003年03期

6 陈波,陈芨熙,杨志雄,顾新建;基于J2EE的分布式技术及在分布式制造系统中的应用[J];制造业自动化;2003年05期

7 王新房,肖胜,陈春娥;基于J2EE的变电工区管理信息系统的研究与设计[J];河北理工学院学报;2004年01期

8 刘宏;J2EE与.NET在Web Services领域之比较[J];电脑学习;2004年04期

9 骆华;电力营销管理信息系统的开发与应用[J];江西电力;2004年04期

10 孙泠;存储不满足[J];软件世界;2004年09期

相关会议论文 前10条

1 任红博;邢春晓;;基于J2EE的政务构件库管理系统的设计与实现[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年

2 段蓉;高敏;;基于J2EE架构的开放式电子电工实验管理系统[A];全国高等学校电子技术研究会论文集[C];2010年

3 张伟燕;席传裕;;J2EE中异步Web服务的研究与应用[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年

4 盛莉;陈科;;基于J2EE的环保产品生产企业进销存管理系统的设计[A];安徽节能减排博士科技论坛论文集[C];2007年

5 许国艳;李晓芳;;J2EE平台上基于Web服务的动态电子商务架构研究[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年

6 李雪;翟庆志;段颖昕;魏章怀;赵宇先;;基于J2EE的数字化管理平台设计与实现[A];北京高教学会实验室工作研究会2009年学术研讨会论文集[C];2009年

7 刘涛;陈行益;;基于ODC的缺陷管理系统的研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年

8 黄灿;周桥;高燕;孟丽;;面向SOA的地理信息服务构建[A];第四届海峡两岸GIS发展研讨会暨中国GIS协会第十届年会论文集[C];2006年

9 马路;郭涑炜;谢飞;;基于J2EE的电子投诉系统[A];Java技术及应用的进展——第七届中国Java技术及应用交流大会文集[C];2004年

10 喻国宝;廖湖声;高红雨;俞晖;;一种基于J2EE的分布式空间要素服务框架[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

相关重要报纸文章 前10条

1 南京邮电学院 李建忠 中南大学 毕文杰;异中有同 同中有异[N];计算机世界;2002年

2 舒畅;J2EE开发平台个性化满足应用需求[N];中国计算机报;2003年

3 曹术华;宏道用J2EE和XML打造门户[N];中国计算机报;2002年

4 上海 邱文宇;学习.Net技术的时机到了?[N];电脑报;2002年

5 ;Compuware升级J2EE开发工具[N];计算机世界;2003年

6 ;支持J2EE1.3的TongWeb最新版本发布[N];中国高新技术产业导报;2003年

7 ;提高.NET和J2EE开发能力[N];中国计算机报;2003年

8 刘庆;定位“经分”[N];网络世界;2006年

9 赵云波 记者  孙小和;常州移动开发出无线网质量智能分析系统[N];人民邮电;2007年

10 王慧斌邋李春瑜 黄晓姝;分析系统给纳税评估安上“眼睛”[N];中国税务报;2007年

相关博士学位论文 前10条

1 杨贤;面向智能水电站的远程监测与分析系统[D];华中科技大学;2012年

2 陈廷斌;基于XML/Web服务的供应链信息集成技术与方法研究[D];大连理工大学;2005年

3 郭晓军;成套电器企业集成信息系统的研究[D];天津大学;2005年

4 赵颖慧;大兴安岭示范区数字林业应用技术的研究[D];东北林业大学;2006年

5 王建军;中药质量控制规范化及光谱相关色谱分析系统研究[D];第二军医大学;2005年

6 高鹏;网络化制造环境下基于语义的制造知识管理技术若干问题的研究[D];浙江大学;2005年

7 洪荣晶;客车车身数字化设计平台关键技术研究[D];东南大学;2006年

8 李祥全;基于多Agent的软件行业人力资源管理系统若干关键技术研究[D];南京航空航天大学;2007年

9 霍科林;女子链球项目生物力学研究[D];北京体育大学;2007年

10 魏向军;全反射相关的X射线荧光分析技术及其应用[D];兰州大学;2006年

相关硕士学位论文 前10条

1 贺晓敏;基于J2EE的高校毕业生就业信息管理系统的开发[D];南昌大学;2010年

2 赵庆永;基于数据挖掘算法的日志分析系统的设计与实现[D];青岛大学;2009年

3 李浩;基于J2EE架构的城建局办公系统的设计与实现[D];电子科技大学;2010年

4 高河福;一个基于J2EE架构的MIS设计与实现[D];暨南大学;2003年

5 刘春玲;基于J2EE平台的教务管理系统的设计[D];合肥工业大学;2010年

6 徐立峰;J2EE框架及全文检索技术在信息管理系统中的应用[D];电子科技大学;2009年

7 周睿鹏;自治愈的容忍入侵J2EE应用服务器平台及关键技术研究[D];解放军信息工程大学;2010年

8 罗正根;基于J2EE体系的综合报警系统的研究与实现[D];江西师范大学;2010年

9 金炜光;基于J2EE的供应链信息化管理系统[D];电子科技大学;2010年

10 曾旭峰;基于J2EE企业应用框架的研究与应用[D];中南林业科技大学;2009年



本文编号:2250991

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2250991.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6a520***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com