基于网络爬虫的内容资源评价研究

发布时间:2017-08-04 19:43

  本文关键词:基于网络爬虫的内容资源评价研究


  更多相关文章: 网络爬虫 代理服务器 内容资源评价 文本分析 关键词抽取


【摘要】:随着互联网和计算机技术的快速发展,网络信息的爆炸式膨胀,结合网络抓取技术和文本分析技术实现对内容资源的评价已经成为研究热点。利用这种评价模式对教学评价、影视评价、文学评价等都有重要意义。本课题来源于科技部项目《内容银行评估系统》,本文将对基于网络信息的评价模式做出具体分析,并对评价模式中的网络数据抓取和文本分析技术做出重点研究和设计实现。利用网络信息实现内容资源评价的首要工作就是对网络数据的获取,为了获得更加广泛、全面的网络数据,针对传统互联网和移动互联网信息,本文设计了不同的数据获取方式。采用网络爬虫来按规则的抓取传统互联网数据,为了使爬虫适应多种网站结构、突破各种网络站点的限制,设计并实现了一种“通用”的定向网络爬虫;对于移动互联网信息采取基于代理的数据包截取方式来取得数据,利用模拟按键的方式让移动客户端自动请求数据,通过代理服务器截取需求站点的数据包,并实现数据包的解析。经过实验验证,系统可以高效稳定的实现数据的定向获取。在获取大量数据之后,通过对数据的解析、过滤、去重等处理,利用文本分析技术对数据主题进行分析。本文重点研究了关键词提取和文本倾向判断方法,关键词的抽取可以快速的定位文本主题、找出主题的关联性,通过比较两种常用的关键词提取方法,根据优劣性对不同的数据选择不同方法;利用朴素贝叶斯分类器实现了文本倾向性判定,并通过统计正负向文本数量实现对主题社会舆论倾向性的判断。经过实验验证,分析结果符合预期,为以后更复杂的文本分析打好了基础。最后,运行部署完成的系统,得到了稳定的数据源数据以及较好文本分析结果,对内容资源评价研究有一定的意义,尤其是在教育技术与新媒体结合的发展趋势下,该成果对教育资源的评价评估具有有重要价值。
【关键词】:网络爬虫 代理服务器 内容资源评价 文本分析 关键词抽取
【学位授予单位】:北京理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
  • 摘要5-6
  • abstract6-9
  • 第1章 绪论9-16
  • 1.1 研究背景和意义9-10
  • 1.2 国内外研究现状及发展趋势10-14
  • 1.2.1 内容资源评价10-11
  • 1.2.2 网络爬虫11-12
  • 1.2.3 关键词提取技术12-13
  • 1.2.4 文本倾向性分析13-14
  • 1.3 论文主要研究内容14-15
  • 1.4 论文章节安排15-16
  • 第2章 系统设计与主要技术概述16-25
  • 2.1 内容资源评价系统设计16-19
  • 2.1.1 内容资源评价系统模块设计16-17
  • 2.1.2 内容资源评价系统流程设计17-19
  • 2.2 网络爬虫主要技术概述19-20
  • 2.2.1 网络爬虫的基本概念与原理19
  • 2.2.2 网络爬虫分类19-20
  • 2.3 文本分析概述20-22
  • 2.3.1 文本关键词提取20-21
  • 2.3.2 文本倾向性分析21-22
  • 2.4 数据存储概述22-24
  • 2.4.1 数据存储NoSQL22-23
  • 2.4.2 Mongodb介绍23-24
  • 2.5 本章小结24-25
  • 第3章 网络爬虫的设计与研究25-40
  • 3.1 设计目标25
  • 3.2 基于SCRAPY的“通用”爬虫框架设计25-28
  • 3.2.1 Scrapy爬虫框架25-26
  • 3.2.2“通用”定向爬虫流程设计26-27
  • 3.2.3“通用”定向爬虫模块设计27-28
  • 3.3 基于SCRAPY的“通用”爬虫实现28-34
  • 3.3.1“通用”定向爬虫配置文件设计28-31
  • 3.3.2“通用”定向爬虫Scrapy框架配置31-32
  • 3.3.3 基于Scrapy框架的爬虫功能实现32-34
  • 3.4 基于代理的移动端数据抓取34-37
  • 3.4.1 基于移动代理的移动数据抓取设计34-35
  • 3.4.2 基于移动代理的移动数据抓取实现35-37
  • 3.5 实验结果与分析37-39
  • 3.6 本章小结39-40
  • 第4章 文本内容分析40-49
  • 4.1 实现目标40
  • 4.2 关键词提取技术40-43
  • 4.2.1 TF-IDF关键词提取算法研究40-41
  • 4.2.2 TextRank关键词提取算法研究41-42
  • 4.2.3 基于Jieba的关键词提取42-43
  • 4.3 文本倾向性分析43-46
  • 4.3.1 朴素贝叶斯文本分类器43-45
  • 4.3.2 基于SnowNLP的文本分类45-46
  • 4.4 实验结果与分析46-48
  • 4.4.1 关键词抽取46-47
  • 4.4.2 文本倾向性判定47-48
  • 4.5 本章小结48-49
  • 第5章 系统整合部署49-55
  • 5.1 内容资源评价系统功能49-50
  • 5.2 内容资源评价系统部署50-51
  • 5.3 系统运行结果及分析51-53
  • 5.4 本章小结53-55
  • 结论55-56
  • 参考文献56-60
  • 攻读学位期间发表论文与研究成果清单60-61
  • 致谢61

【相似文献】

中国期刊全文数据库 前10条

1 戚欣;;基于本体的主题网络爬虫设计[J];武汉理工大学学报;2009年03期

2 彭轲;廖闻剑;;基于浏览器服务的网络爬虫[J];硅谷;2009年04期

3 王江红;朱丽君;李彩虹;;一种新型网络爬虫的设计与实现[J];微计算机信息;2010年03期

4 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期

5 杨靖韬;陈会果;;对网络爬虫技术的研究[J];科技创业月刊;2010年10期

6 于成龙;于洪波;;网络爬虫技术研究[J];东莞理工学院学报;2011年03期

7 李志义;;网络爬虫的优化策略探略[J];现代情报;2011年10期

8 焦赛美;;网络爬虫技术的研究[J];琼州学院学报;2011年05期

9 宋海洋;刘晓然;钱海俊;;一种新的主题网络爬虫爬行策略[J];计算机应用与软件;2011年11期

10 王娟;吴金鹏;;网络爬虫的设计与实现[J];软件导刊;2012年04期

中国重要会议论文全文数据库 前4条

1 夏诏杰;郭力;李晓霞;;化学主题网络爬虫的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年

2 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年

3 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

4 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年

中国硕士学位论文全文数据库 前10条

1 陶俊文;基于Heritrix框架的专业镇信息网络爬虫系统[D];华南理工大学;2015年

2 马汉超;基于主题网络爬虫的汽车行业多元信息web系统设计与实现[D];西南交通大学;2015年

3 李威;基于交通流量图的交通信息提取技术研究[D];长安大学;2015年

4 朱嵘良;分布式并行环境下的网络爬虫研究[D];中央民族大学;2015年

5 周思华;股票系统之热门话题发现子系统的设计与实现[D];哈尔滨工业大学;2015年

6 丁杰;基于网络爬虫的虚假网页主动智能检测[D];华北电力大学;2015年

7 唐华栋;网页防抓取系统的设计与实现[D];哈尔滨工业大学;2015年

8 白剑飞;基于层次主题模型的网络新闻汇聚[D];浙江大学;2015年

9 袁野;企业内网搜索引擎关键技术研究与实现[D];电子科技大学;2014年

10 滕以芳;基于本体的多媒体素材网络爬虫设计与实现[D];吉林大学;2015年



本文编号:621386

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/621386.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户96e3a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com