[Abstract]:With the rapid expansion of network information, all kinds of news websites and forums are getting more and more information. In such huge data, it is becoming more and more difficult to find news items or forum topics related to topics of concern to users quickly and accurately. At present, search engines such as Google, Baidu provide a wide range of topics for crawling results, and the timeliness is difficult to guarantee. In addition, some key words related to the results are purchased, which often leads to the timeliness and relevance of retrieval. The efficiency of manual retrieval is not satisfactory, which can not meet the needs of users in a specific field of accurate search. Therefore, the purpose of this paper is to achieve a precise web crawler system with the accuracy of page timeliness, network content correlation and high matching of search keywords, together with accurate classification and analysis, in order to achieve the purpose of monitoring network public opinion. As Internet public order becomes an important part of constructing harmonious spiritual civilization, it is more and more important to guard against the network naval forces and network hostile forces, and to listen to the voices of the people. This has also led to the emergence of domestic public opinion monitoring for the purpose of the network crawler system companies, my internship in the unit is such a focus on specific user groups of Internet companies. The data sources of the network public opinion analysis system described in this paper are currently the main domestic Weibo, forums (such as Xici, Tianya, Sina, Tiefa) and news websites (Sina and other portals), as well as Baidu, Qihoo News and other professional search engine results page. After the web page is fetched recursively, we use HtmlParser, an open source web page parsing tool, to analyze the main structure and filter it based on time, topic correlation and content correlation. Finally, it is updated to the database for the foreground Jsp page to visit. Reptiles support timing tasks and ad-hoc immediate triggers. At the logic level, some open source technologies such as Spring,Hibernate,Struts are used to build MVC-based business processing system, and the modules of background acquisition, parsing, filtering and so on are used to perfect the system by using open source technology such as Berkeley DB,Apache Lucene,HtmlParser,MMAnalyzer. In this system, I designed and implemented the collection center sub-module, analysis module and classification analysis module. This paper mainly describes the related work of these modules, including requirements analysis, specific design (flow chart, class diagram) and the implementation of key codes. In the end, the shortcomings of the system and the points for improvement are described.
相关期刊论文 前10条
1 孙宏彬,苏长龄;基于J2EE三层结构分布系统设计与实现[J];齐齐哈尔大学学报;2002年04期
2 潘锦基,周良,丁秋林;基于J2EE的物流信息系统设计与实现[J];计算机工程与应用;2003年26期
3 姚睿,彭舰,周明康;基于J2EE的学习管理系统[J];计算机应用;2003年09期
4 杨鏖丞,孟波;基于J2EE构建B2B电子商务平台[J];计算机应用研究;2003年03期
5 方鹏,霍亮;基于J2EE环境下EJB结构的Web GIS实现[J];测绘工程;2003年03期
6 陈波,陈芨熙,杨志雄,顾新建;基于J2EE的分布式技术及在分布式制造系统中的应用[J];制造业自动化;2003年05期
7 王新房,肖胜,陈春娥;基于J2EE的变电工区管理信息系统的研究与设计[J];河北理工学院学报;2004年01期
8 刘宏;J2EE与.NET在Web Services领域之比较[J];电脑学习;2004年04期
9 骆华;电力营销管理信息系统的开发与应用[J];江西电力;2004年04期
10 孙泠;存储不满足[J];软件世界;2004年09期
相关会议论文 前10条
1 任红博;邢春晓;;基于J2EE的政务构件库管理系统的设计与实现[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
2 段蓉;高敏;;基于J2EE架构的开放式电子电工实验管理系统[A];全国高等学校电子技术研究会论文集[C];2010年
3 张伟燕;席传裕;;J2EE中异步Web服务的研究与应用[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
4 盛莉;陈科;;基于J2EE的环保产品生产企业进销存管理系统的设计[A];安徽节能减排博士科技论坛论文集[C];2007年
5 许国艳;李晓芳;;J2EE平台上基于Web服务的动态电子商务架构研究[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
6 李雪;翟庆志;段颖昕;魏章怀;赵宇先;;基于J2EE的数字化管理平台设计与实现[A];北京高教学会实验室工作研究会2009年学术研讨会论文集[C];2009年
7 刘涛;陈行益;;基于ODC的缺陷管理系统的研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
8 黄灿;周桥;高燕;孟丽;;面向SOA的地理信息服务构建[A];第四届海峡两岸GIS发展研讨会暨中国GIS协会第十届年会论文集[C];2006年
9 马路;郭涑炜;谢飞;;基于J2EE的电子投诉系统[A];Java技术及应用的进展——第七届中国Java技术及应用交流大会文集[C];2004年
10 喻国宝;廖湖声;高红雨;俞晖;;一种基于J2EE的分布式空间要素服务框架[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
相关重要报纸文章 前10条
1 南京邮电学院 李建忠 中南大学 毕文杰;异中有同 同中有异[N];计算机世界;2002年
2 舒畅;J2EE开发平台个性化满足应用需求[N];中国计算机报;2003年
3 曹术华;宏道用J2EE和XML打造门户[N];中国计算机报;2002年
4 上海 邱文宇;学习.Net技术的时机到了?[N];电脑报;2002年
5 ;Compuware升级J2EE开发工具[N];计算机世界;2003年
6 ;支持J2EE1.3的TongWeb最新版本发布[N];中国高新技术产业导报;2003年
7 ;提高.NET和J2EE开发能力[N];中国计算机报;2003年
8 刘庆;定位“经分”[N];网络世界;2006年
9 赵云波 记者 孙小和;常州移动开发出无线网质量智能分析系统[N];人民邮电;2007年
10 王慧斌邋李春瑜 黄晓姝;分析系统给纳税评估安上“眼睛”[N];中国税务报;2007年
相关博士学位论文 前10条
1 杨贤;面向智能水电站的远程监测与分析系统[D];华中科技大学;2012年
2 陈廷斌;基于XML/Web服务的供应链信息集成技术与方法研究[D];大连理工大学;2005年
3 郭晓军;成套电器企业集成信息系统的研究[D];天津大学;2005年
4 赵颖慧;大兴安岭示范区数字林业应用技术的研究[D];东北林业大学;2006年
5 王建军;中药质量控制规范化及光谱相关色谱分析系统研究[D];第二军医大学;2005年
6 高鹏;网络化制造环境下基于语义的制造知识管理技术若干问题的研究[D];浙江大学;2005年
7 洪荣晶;客车车身数字化设计平台关键技术研究[D];东南大学;2006年
8 李祥全;基于多Agent的软件行业人力资源管理系统若干关键技术研究[D];南京航空航天大学;2007年
9 霍科林;女子链球项目生物力学研究[D];北京体育大学;2007年
10 魏向军;全反射相关的X射线荧光分析技术及其应用[D];兰州大学;2006年
相关硕士学位论文 前10条
1 贺晓敏;基于J2EE的高校毕业生就业信息管理系统的开发[D];南昌大学;2010年
2 赵庆永;基于数据挖掘算法的日志分析系统的设计与实现[D];青岛大学;2009年
3 李浩;基于J2EE架构的城建局办公系统的设计与实现[D];电子科技大学;2010年
4 高河福;一个基于J2EE架构的MIS设计与实现[D];暨南大学;2003年
5 刘春玲;基于J2EE平台的教务管理系统的设计[D];合肥工业大学;2010年
6 徐立峰;J2EE框架及全文检索技术在信息管理系统中的应用[D];电子科技大学;2009年
7 周睿鹏;自治愈的容忍入侵J2EE应用服务器平台及关键技术研究[D];解放军信息工程大学;2010年
8 罗正根;基于J2EE体系的综合报警系统的研究与实现[D];江西师范大学;2010年
9 金炜光;基于J2EE的供应链信息化管理系统[D];电子科技大学;2010年
10 曾旭峰;基于J2EE企业应用框架的研究与应用[D];中南林业科技大学;2009年