当前位置:主页 > 科技论文 > 搜索引擎论文 >

互联网主题信息调研与拓展系统的设计与实现

发布时间:2017-09-07 22:25

  本文关键词:互联网主题信息调研与拓展系统的设计与实现


  更多相关文章: 网络爬虫 数据挖掘 关联分析


【摘要】:互联网大数据时代,人们的生活已经离不开互联网,都难免留下痕迹,这些痕迹淹没在庞大的数据海洋中,看似无从循迹。事实上,依靠科技的力量,只要方法得当,我们依然可以从海量数据中寻找到需要的信息。本课题来源于作者工作实践,主要解决两类问题,一是对于给定的主题信息,通过互联网,尽可能发现和收集与其相关的数据,搭建数据库予以保存;二是对于可疑线索,一方面同样通过互联网搜索尽可能多的相关信息,另一方面和已知特定目标的信息库进行比对,力求发现可疑线索最终指向的幕后目标。本课题研究的核心内容包括三部分:一是设计一种高精度聚焦网络爬虫程序,根据不同线索类型提取数据特征,自动化分析数据源,尽可能排除无关数据的干扰,从海量网络资源中获取与可疑线索相关的敏感信息;二是针对可疑目标的线索扩展技术。该部分需紧密结合使用部门的工作实际,数据类型和维度标准由业务部门指定并可灵活添加、修改,并采用基于Whois、Nslookup、搜索引擎及网络爬虫等数据,针对嫌疑线索进行自动化智能扩展;三是基于数据挖掘的多维信息分类与关联分析技术。重点研究了如何挖掘海量数据之间蕴含的关联规则,并通过关联规则从海量数据中提取有用信息,发现新的线索成果。
【关键词】:网络爬虫 数据挖掘 关联分析
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.52;TP391.1
【目录】:
  • 摘要5-6
  • ABSTRACT6-10
  • 第一章 绪论10-13
  • 1.1 研究背景10
  • 1.2 研究意义10-11
  • 1.3 国内外研究现状11
  • 1.4 主要研究内容11-12
  • 1.5 论文组织结构12-13
  • 第二章 相关理论与技术13-31
  • 2.1 网络爬虫理论与技术13-24
  • 2.1.1 网络爬虫概念与原理13-14
  • 2.1.2 网页采集策略14-15
  • 2.1.3 页面消重技术15-17
  • 2.1.4 网络爬虫分类17-18
  • 2.1.5 分布式聚焦网络爬虫18-19
  • 2.1.6 网络爬虫数据存储19-20
  • 2.1.7 开源网络爬虫框架20-24
  • 2.2 数据挖掘理论与技术24-30
  • 2.2.1 数据挖掘概念24-25
  • 2.2.2 数据挖掘的功能25-26
  • 2.2.3 数据挖掘步骤26
  • 2.2.4 数据挖掘的知识模式以及方法26-30
  • 2.3 本章小结30-31
  • 第三章 系统需求与总体设计31-39
  • 3.1 系统需求31-32
  • 3.1.1 用户功能需求分析31-32
  • 3.1.2 系统性能需求分析32
  • 3.2 总体功能设计32-36
  • 3.3 系统体系架构36-37
  • 3.4 用户角色说明37-38
  • 3.5 运行环境38
  • 3.6 本章小结38-39
  • 第四章 系统实现39-64
  • 4.1 信息收集模块39-49
  • 4.1.1 信息收集模块设计40-41
  • 4.1.2 初始URL集合41
  • 4.1.3 页面采集模块41-43
  • 4.1.4 页面解析模块43-44
  • 4.1.5 基于PageRank算法的主题相关性计算模块44-48
  • 4.1.6 工作特征信息48-49
  • 4.2 信息分析模块49-61
  • 4.2.1 多维数据分类模块51-53
  • 4.2.2 关联关系分析子模块:53-54
  • 4.2.3 数据清洗子模块54-57
  • 4.2.4 数据并行分析与挖掘子模块57-61
  • 4.2.5 模型构建与智能学习子模块61
  • 4.3 结果展示模块61-63
  • 4.4 本章小结63-64
  • 第五章 系统应用64-72
  • 5.1 系统登录页面64
  • 5.2 系统主页面64-65
  • 5.3 域名信息查询65
  • 5.4 IP信息查询65-66
  • 5.5 网站地址信息收集66
  • 5.6 托管服务器信息收集66-67
  • 5.7 注册会员信息收集67
  • 5.8 邮箱地址线索扩展67-68
  • 5.9 案件分析68-69
  • 5.10 重点关注与事件告警69-70
  • 5.11 动态线索展示70
  • 5.12 应用案例分析70-71
  • 5.13 本章小结71-72
  • 结论72-73
  • 参考文献73-75
  • 致谢75-76
  • 答辩委员会对论文的评定意见逡逑76

【相似文献】

中国期刊全文数据库 前10条

1 王甜;;互联网治理论坛第二次会议在巴西召开[J];互联网天地;2007年12期

2 米丹宁;;被忽视的互联网[J];信息方略;2008年16期

3 邬贺铨;;互联网发展面临可扩展性挑战[J];世界电信;2010年08期

4 ;第七届互联网治理论坛举行[J];计算机安全;2012年11期

5 彭晓光;霍红萍;;互联网资源对地域经济发展的影响研讨[J];电子制作;2013年10期

6 潘应和;浅议广播电台进军互联网的新思路[J];当代传播;2000年06期

7 郭良;卜卫;;2000年中国北京、上海、广州、成都、长沙互联网使用状况及影响的调查报告[J];Internet信息世界;2001年10期

8 晓齐;《中国互联网发展报告》(2003-2004年卷)出版[J];信息网络安全;2004年07期

9 黄永贵;;听网:用耳朵贴近互联网[J];互联网天地;2007年08期

10 ;手机上网:互联网时代的王道[J];中国新通信;2008年20期

中国重要会议论文全文数据库 前3条

1 王东明;毛英军;李志军;;利用互联网资源,了解国外医疗设备动态[A];中华医学会医学工程学分会第二次医学影像设备应用技术研讨会论文集[C];2001年

2 宇缨;;互联网高等教育教学资源的现状及相关技术分析[A];中国高等教育学会教育信息化分会第十次学术年会论文集[C];2010年

3 郭剑锋;蔡圣华;;互联网资源在Web2.0中的自组织特性与管理模式分析[A];第十二届中国管理科学学术年会论文集[C];2010年

中国重要报纸全文数据库 前10条

1 记者 张绪旺 蓝朝晖;阿里联手上汽布局互联网汽车[N];北京商报;2014年

2 廖庆升;谢文:互联网发展最大障碍是缺乏诚信和创新[N];通信信息报;2007年

3 记者 冯海波 通讯员 龚华萍;网速更快也更安全[N];广东科技报;2008年

4 记者 姚睿;互联网政策与资源工作委员会成立[N];计算机世界;2002年

5 ;中国互联网协会谴责破坏行为[N];计算机世界;2003年

6 中国互联网络信息中心(CNNIC) 胡军庆;下一代互联网的机遇与挑战[N];计算机世界;2004年

7 本报记者 王扬二;互联网电视竞争:寻找“黑箱技术”[N];中国质量报;2009年

8 记者 徐颖;新视科技助企业和校园实施互联网资源访问管理[N];北京科技报;2002年

9 本报记者 潘旭涛;互联网未来:+-×÷[N];人民日报海外版;2014年

10 本报记者 傅嘉;A股大象蚂蚁齐喊互联网转型[N];中国证券报;2014年

中国硕士学位论文全文数据库 前10条

1 朱启贞;互联网+时代下日照ZS集团战略问题分析及对策研究[D];青岛科技大学;2016年

2 方耀耀;基于移动互联网的信息推送系统的研究与实现[D];北方工业大学;2016年

3 颜臣;我国商业银行互联网金融发展策略研究[D];山东财经大学;2016年

4 焦慧娟;互联网金融发展对商业银行的影响研究[D];首都经济贸易大学;2016年

5 朱英镇;互联网主题信息调研与拓展系统的设计与实现[D];华南理工大学;2016年

6 靳见美;大学生互联网依赖对网络惠顾意愿的影响研究[D];大连交通大学;2013年

7 何波;武汉市互联网与新农村建设的实证研究[D];华中师范大学;2015年

8 张凡;互联网金融背景下我国中小银行的发展对策研究[D];天津财经大学;2014年

9 刘冬林;河南农民互联网使用现状调查研究[D];河南大学;2013年

10 孙铭;互联网辅助翻译工具及其应用研究[D];黑龙江大学;2014年



本文编号:810237

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/810237.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户69fec***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com