当前位置:主页 > 管理论文 > 移动网络论文 >

基于Web信息大数据分析的信息资产研究与实现

发布时间:2018-10-10 07:09
【摘要】:随着Web技术及数字化校园建设的迅速发展,校园局域网存在的Web及其他信息资源,呈现出数量多、规模大、结构复杂、动态变化快等特点,使得校园网信息资产管理者眼花缭乱。对复杂的校园网信息资产进行管理及运行状态的监控,是一件很繁琐的事情。目前已有的校园信息资产管理系统大部分是通过人工主动监测后手动配置、导入数据等方式进行资产的监控。这使监测具有滞后性,并不能及时、准确、宏观地反映校园网信息资产的实时状态信息。本文从Web信息大数据分析的角度出发,研究了 Web信息采集技术中的多线程爬虫技术、线程池调度技术及IP、端口、服务器等扫描探测技术。研究了信息预处理过程中基于MD5的大规模URL去重及基于Simhash的网页去重算法、基于DOM树的页面解析技术。同时研究恶意URL的检测技术及暗链、漏洞等恶意行为的特征匹配算法。将这些技术和算法运用到项目中,实现了基于Web信息大数据分析的校园网信息资产管理系统。本系统的实现分为两个层次。首先是信息采集预处理层,从一个应用层URL链接出发,通过Web网络爬虫及SNMP探测等网络扫描探测技术,获取校园网内全部的资产信息,包括Web网页信息、域名、IP、端口及服务器信息。然后通过对采集的数据进行去噪、去重等预处理,将有价值的信息资产数据进行整合存储。其次是校园网信息资产的可视化展示层,对存储的有价值的多维数据按需进行特征提取、提供信息查询和管理功能。实现了对校园网Web链接分层信息、硬件服务器信息、服务器系统信息、网站运行状态监控及校园网安全情况的统计管理,能够简洁明了、动态地监控校园网信息资产的运行状态。如监测校园网各类服务器的运行状态和使用情况、校园网的暗链、漏洞或恶意代码等安全隐患信息。在系统设计与实现过程中,首先进行系统需求分析,提炼出系统需要实现的功能。然后在需求分析的基础上,对系统进行总体架构及功能模块的设计,并对每个模块进行详细设计与实现。最后,展现系统实现的成果并进行系统测试和运行分析总结。
[Abstract]:With the rapid development of Web technology and the construction of digital campus, the existence of Web and other information resources in campus LAN has the characteristics of large quantity, large scale, complex structure, fast dynamic change and so on. Make campus network information asset managers dazzled. It is very complicated to manage and monitor the information assets of complex campus network. At present, most of the existing campus information asset management systems are manual configuration after manual active monitoring, data import and other ways to monitor assets. This makes the monitoring lag, and can not reflect the real-time state information of campus network information assets in time, accurately and macroscopically. In this paper, from the point of view of Web information big data analysis, the multi-thread crawler technology, thread pool scheduling technology, IP, port, server and other scanning detection techniques in Web information collection technology are studied. In the process of information preprocessing, the large scale URL de-reduplication algorithm based on MD5 and the web page de-reduplication algorithm based on Simhash, and the page parsing technology based on DOM tree are studied. At the same time, the detection technology of malicious URL and the feature matching algorithm of malicious behavior such as dark chain and vulnerability are studied. These techniques and algorithms are applied to the project to realize the campus network information asset management system based on the analysis of Web information big data. The realization of this system is divided into two levels. First of all, the information collection and preprocessing layer, from an application layer URL link, through the Web network crawler and SNMP detection network scanning detection technology, to obtain all the campus network assets information, including Web web page information. Domain name IP, port and server information. Then the valuable data of information assets are stored by de-noising and re-processing. Secondly, the visual display layer of campus network information assets is used to extract the features of the valuable multidimensional data stored on demand and to provide information query and management functions. The statistical management of campus network Web link layer information, hardware server information, server system information, website running state monitoring and campus network security is realized. Monitor the running status of campus network information assets dynamically. Such as monitoring the running status and usage of various servers of campus network, the hidden chain of campus network, vulnerabilities or malicious code and other security information. In the process of system design and implementation, the system needs to be analyzed firstly, and the functions needed to be realized are extracted. Then on the basis of requirement analysis, the overall architecture and functional modules of the system are designed, and each module is designed and implemented in detail. Finally, show the achievement of the system and carry on the system test and operation analysis summary.
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13;TP393.09

【相似文献】

相关期刊论文 前10条

1 得州;;挖出不一样的秘密 数据分析师[J];电脑爱好者;2010年13期

2 张文霖;;数据分析初体验[J];数据;2013年05期

3 古福;;让大数据分析更快速、更简化[J];互联网周刊;2013年11期

4 于宗民;;数据分析应用的最大障碍[J];中国金融电脑;2007年08期

5 魏巍巍;;论数据分析在企业经营管理中的重要性[J];产业与科技论坛;2012年12期

6 张文霖;;数据分析六步曲[J];数据;2013年06期

7 戴未琰;;大数据分析概要[J];物联网技术;2013年08期

8 王海蕴;;大数据分析 市场成倍增长 深耕空间巨大[J];财经界;2013年10期

9 ;大数据分析系列3:大数据分析如何权衡存储[J];电脑与电信;2013年10期

10 马_";;对大数据分析相关问题的思考[J];信息通信技术;2013年06期

相关会议论文 前10条

1 申敏;;数据分析的原则和一般方法[A];2010年云南电力技术论坛论文集(文摘部分)[C];2010年

2 刘刚;;小学生数据分析观念的培养[A];中华教育理论与实践科研论文成果选编(第五卷)[C];2013年

3 石勇;;在银行和金融数据分析中的评分方法[A];Data Analysis, Econo-physics and Risk Management--Proceedings of CCAST (World Laboratory) Workshop[C];2001年

4 吴一平;;基于数据分析的离校工作改进[A];中国高等教育学会教育信息化分会第十二次学术年会论文集[C];2014年

5 吕大青;;送变电施工企业中数据分析的运用[A];第二届浙江中西部科技论坛论文集(第一卷)[C];2005年

6 李小花;李姝;;大数据分析在指挥信息系统中的应用[A];2014第二届中国指挥控制大会论文集(下)[C];2014年

7 范丽伟;唐焕文;唐一源;;空间独立成分分析在fMRⅠ数据分析中的应用[A];第九次全国生物物理大会学术会议论文摘要集[C];2002年

8 张军;李婕;;中国国民休闲状态变化研究——基于网上数据分析[A];第十五届全国区域旅游学术开发研讨会暨度假旅游论坛论文册[C];2010年

9 徐小龙;王汝传;姜波;;一种新的基于P2P的电信海量数据分析业务模式[A];普适计算及其软件新技术——第三届长三角计算机科技论坛文集[C];2006年

10 邵东华;;高速公路的平面控制复测与数据分析[A];第四届“测绘科学前沿技术论坛”论文精选[C];2012年

相关重要报纸文章 前10条

1 匿铭;数据分析的“磨刀阶段”[N];中华读书报;2013年

2 胡英;澳发布政府可信数据分析指导草案[N];人民邮电;2014年

3 郑爱民;陕西加强消费维权数据分析利用[N];中国工商报;2014年

4 本报驻美国记者 吴成良;“数据分析”成了“金饭碗”[N];人民日报;2014年

5 本报记者 杨群;大数据分析亮出专家的“自贸研判”[N];解放日报;2014年

6 周桂生 汤建国;数据分析行业登陆湖南,带来巨大商机[N];中国企业报;2008年

7 朱文明 甫瀚公司咨询专家;数据分析提升决策智慧[N];中国审计报;2009年

8 ;国采中心空调协议供货数据分析[N];政府采购信息报;2010年

9 武虹 审计署驻沈阳特派办;以数据分析为统领开展数字化审计工作[N];中国审计报;2012年

10 杰弗尼;行走在大数据分析误区旁的零售商[N];中国商报;2013年

相关博士学位论文 前7条

1 刘岳;区域地球化学数据分析及成矿信息融合模型研究[D];中国地质大学;2015年

2 徐晓琳;面向大规模数据分析与分类的正则化回归算法[D];安徽大学;2017年

3 董媛香;基于软集合的不完备不一致数据分析及决策方法研究[D];重庆大学;2014年

4 张睿;数据分析在污染控制领域的节能优化应用[D];中国科学技术大学;2014年

5 陈宜治;函数型数据分析若干方法及应用[D];浙江工商大学;2011年

6 郭广报;基于并行统计计算的金融数据分析[D];山东大学;2012年

7 孙建强;生物磁共振数据分析中的几个问题[D];中国科学院研究生院(武汉物理与数学研究所);2014年

相关硕士学位论文 前10条

1 周儒军;基于Hadoop的分布式监控平台的研究与实现[D];华南理工大学;2015年

2 施建辉;中职生职业道德认识现状调查研究[D];上海师范大学;2015年

3 丁国辉;核磁共振数据分析中的两个问题[D];中国科学院研究生院(武汉物理与数学研究所);2015年

4 张清;面向精准广告投放的数据分析与可视化系统设计与实现[D];山东大学;2015年

5 周徐;基于分层采样的DeepWeb数据分析方法研究[D];苏州大学;2015年

6 王佳琦;纠正性反馈对高中生英语冠词习得的影响[D];内蒙古师范大学;2015年

7 顾星竹;基于Hadoop的PCF系统的设计与实现[D];南京大学;2014年

8 张海洋;大数据的统计分析技术比较研究[D];南京大学;2014年

9 扎娟娟;银保通管理系统的构建与实施[D];电子科技大学;2014年

10 姜佳健;云环境下基于B/S结构的血管数据分析[D];东南大学;2015年



本文编号:2261102

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2261102.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4f1b2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com