支持云计算产品RIA模式页面数据抓取的模型和策略研究
本文关键词:支持云计算产品RIA模式页面数据抓取的模型和策略研究,,由笔耕文化传播整理发布。
【摘要】:随着云计算产业的发展,越来越多的云计算产品在市场上出现,这在给中小企业和其它用户带来更多降低企业和应用成本的同时,也使得企业和用户在面对大量产品信息的同时不知所措。这一方面是由于云产品具有可高度定制化的特点,令其信息量大增;另一方面是源自这些信息分散地存在于各云产品厂商的服务器上,难以进行集中处理。这些问题阻碍着企业和用户在选择云计算产品应用云计算技术时的有效决策。在传统互联网领域,为了解决从海量信息中有效获取有用信息这一问题,人们开发了搜索引擎,通过抓取分散在Web上的信息,可以实现对Web信息的快速查询。但Web发展到今天,信息在Web上的存在和展现方式已经发生了翻天覆地的变化,以Ajax技术为基础,应用大量如jQuery等前端脚本技术的Web站点,已然形成了将大量信息隐藏在搜索引擎抓取能力之外的RIAs (Rich Internet Applications),而云计算厂商的产品页面则几乎都是复杂的RIA。传统搜索引擎出于技术和成本的考虑,在抓取RIA中的深层网信息时力不从心。因此,为了抓取云计算厂商RIA页面中的产品信息,给企业和用户提供决策的支持,而要研究支持从RIA模式页面中抓取信息的模型和策略。 本文通过对传统Web抓取技术,也就是网络爬虫,以及现有的在支持Web2.0及Ajax的抓取技术方面的研究,提出了一个支持从RIA中抓取可定制化产品信息的抓取模型和策略。研究在通用的Scrapy抓取框架的基础上,增加了用于存储和处理抓取规则的功能,重写了抓取算法,改善了调度方法,实现了脚本解析、DOM操作和用户事件触发等机制。和传统网络爬虫及现有支持Ajax抓取的系统不同,本模型和策略既不是一个通用的网络爬虫,也不是一个针对个别网站的专用抓取系统,通过特定的事件触发和RIA页面模型遍历算法,本模型和策略可以通过解析抓取规则,实现对用户可定制产品参数的产品RIA页面进行抓取。本模型和策略与传统网络爬虫的主要区别在于能对RIA页面中的脚本进行解析,并根据脚本执行结果操作页面DOM,从而获取隐藏在RIA中的深层信息;与现有的支持Ajax的抓取系统的区别在于,通过对抓取的目标页面重新建模,并采用不同的抓取算法和脚本支持方法,实现模拟用户对RIA页面助用户事件的触发。 本文对支持从云计算产品RIA页面中抓取数据的抓取模型和策略的研究,对于利用云计算产品信息,为企业和用户提供云计算决策支持有重要意义,同时对获取可定制化产品的信息,对相关产品和行业进行分析也具有一定的应用价值。
【关键词】:RIA 云计算产品 抓取
【学位授予单位】:浙江工商大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.09
【目录】:
- 摘要2-4
- ABSTRACT4-8
- 第1章 绪论8-18
- 1.1 研究背景与目的意义8-11
- 1.2 国内外研究现状11-15
- 1.2.1 抓取模型11-13
- 1.2.2 抓取策略13-15
- 1.3 主要研究工作与方法15
- 1.4 主要研究内容15-18
- 第2章 相关技术理论介绍18-30
- 2.1 构建RIA的关键技术19-22
- 2.1.1 Ajax的原理和简介19-21
- 2.1.2 jQuery的原理和简介21-22
- 2.2 模型和策略的理论介绍22-26
- 2.2.1 抓取模型架构理论22-24
- 2.2.2 抓取策略理论24-26
- 2.3 Scrapy框架介绍26-28
- 2.4 Selenium简介28
- 2.5 本章小结28-30
- 第3章 模型与策略分析30-36
- 3.1 抓取研究面临的问题32-33
- 3.2 抓取模型问题分析33-34
- 3.2.1 脚本解析问题分析33
- 3.2.2 用户事件触发问题分析33-34
- 3.3 抓取策略问题分析34-35
- 3.3.1 页面建模问题分析34-35
- 3.3.2 抓取算法问题分析35
- 3.4 本章小结35-36
- 第4章 模型与策略设计36-54
- 4.1 抓取模型设计36-45
- 4.1.1 抓取模型架构设计36-39
- 4.1.2 脚本解析方案设计39-40
- 4.1.3 事件触发方案设计40-41
- 4.1.4 模型主要模块处理流程设计41-45
- 4.1.4.1 Spider模块处理流程41-42
- 4.1.4.2 Rules及其构建流程42-43
- 4.1.4.3 Scheduler模块处理流程43-44
- 4.1.4.4 DOM Storage模块处理流程44-45
- 4.2 抓取策略设计45-53
- 4.2.1 目标页面建模方案设计45-50
- 4.2.1.1 建立新模型47-50
- 4.2.2 抓取算法方案设计50-52
- 4.2.3 抓取策略处理流程设计52-53
- 4.3 本章小结53-54
- 第5章 实例运行实验54-68
- 5.1 实验环境56-57
- 5.1.1 硬件环境56
- 5.1.2 软件环境56-57
- 5.1.3 实验环境架构57
- 5.2 初始设置57-60
- 5.2.1 系统支持组件包部署58
- 5.2.2 URLs及Rules初始实验数据设置58-60
- 5.2.3 Spider模块参数设置60
- 5.3 其它参数设置60
- 5.4 实验及结果60-64
- 5.5 结果分析64-67
- 5.6 本章小结67-68
- 第6章 总结与展望68-70
- 6.1 总结68-69
- 6.2 不足与展望69-70
- 参考文献70-74
- 致谢74-75
【相似文献】
中国期刊全文数据库 前10条
1 金伟新;“串并联”模型框架与作战效能评估[J];系统工程与电子技术;2001年07期
2 徐享忠,王精业,马亚龙;知识管理的模型框架及其关键技术[J];计算机工程;2002年02期
3 徐志毅;新7S管理模型框架与应用[J];通信企业管理;2003年02期
4 秦刚,陈超波,雷斌,王青岳;一种基于元模型的软件构建方法[J];西安工业学院学报;2004年03期
5 孙晶,赵会群;基于模型代数的DSS建模与实现方法研究[J];计算机工程与应用;2003年34期
6 夏冬梅;孙林;;实例推理的敏捷虚拟企业模型重用方法研究[J];现代制造工程;2010年03期
7 曹强;张明智;罗批;李志强;;虚拟社会中城际交通模型研究[J];计算机仿真;2009年01期
8 姜军平;刘伟;;Java并发模型框架的构建及应用[J];西北医学教育;2006年03期
9 张宇,宋国宁,王成恩;流程企业过程管理的模型框架[J];计算机集成制造系统-CIMS;2001年06期
10 荣冈;肖俊;胡云苹;冯毅萍;;基于中立模型表达的数学知识管理方法[J];南京理工大学学报;2014年03期
中国重要会议论文全文数据库 前7条
1 马运全;;金融创新与制度环境:模型框架与实证分析[A];2011年(第九届)“中国法经济学论坛”论文集[C];2011年
2 金伟新;肖田元;胡晓峰;马亚平;;战争CAWSOM模型[A];中国系统仿真学会第五次全国会员代表大会暨2006年全国学术年会论文集[C];2006年
3 柯嵩;韩亮;;CGF系统中的情绪模型及实现方法初探[A];第五届全国仿真器学术会论文集[C];2004年
4 王秀敏;应益荣;;MWZ模型框架下的交易者互动模型研究[A];第二届中国智能计算大会论文集[C];2008年
5 岳永;;强制性制度变迁、意识形态与经济绩效——一个关于中俄改革分析的模型框架[A];中国制度经济学年会论文集[C];2003年
6 刘颖斐;余玉苗;;基于风险控制价值的独立审计定价模型框架[A];中国会计学会2006年学术年会论文集(上册)[C];2006年
7 陈宏;黄洪;;ERP实施就绪度模型(IRM-ERP)设计与研究[A];全国第十届企业信息化与工业工程学术年会论文集[C];2006年
中国重要报纸全文数据库 前2条
1 海通股指期货联合研究中心 李子婧;基于BIRR模型的宏观因子套利策略[N];期货日报;2010年
2 王怀民邋漆青;武汉大学主导研制的一项标准成为国际标准[N];科技日报;2008年
中国博士学位论文全文数据库 前3条
1 江滨;GHM模型的推论和扩展[D];东北财经大学;2013年
2 鲍群芳;基于对数均值回复模型的VIX建模[D];浙江大学;2013年
3 曹京;有限温有限密QCD的准粒子模型研究[D];南京大学;2012年
中国硕士学位论文全文数据库 前10条
1 尹强;模型独立框架下高阶π演算及表达能力研究[D];上海交通大学;2012年
2 叶蜜冬;基于中国市场的最优套期保值比率模型绩效实证检验[D];厦门大学;2009年
3 郭琦;海南省CGE模型的理论框架及其参数估计[D];华南热带农业大学;2006年
4 徐继峰;中国金融CGE模型的建立及农业信贷政策模拟[D];中国农业科学院;2008年
5 钱育(石羡);灾情预测和财产损失评估模型的研究和实现[D];中国科学院研究生院(软件研究所);2004年
6 方婧;聚合风险模型下的保费估计及信度估计的推广[D];江西师范大学;2013年
7 林娟华;基于KMV模型的银行信贷风险管理实证研究[D];华东师范大学;2009年
8 周鑫;VaR-GARCH-EVT模型及在中国证券市场的实证研究[D];东北大学;2007年
9 马颖奇;北京市CGE模型的构建及应用[D];吉林大学;2007年
10 汪澍;支持云计算产品RIA模式页面数据抓取的模型和策略研究[D];浙江工商大学;2014年
本文关键词:支持云计算产品RIA模式页面数据抓取的模型和策略研究,由笔耕文化传播整理发布。
本文编号:357432
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/357432.html