基于R语言的网络爬虫技术研究
本文关键词:基于R语言的网络爬虫技术研究
【摘要】:网页数据的采集主要是指采集网页中相关的文本、数据信息以及链接信息,该文分析网页数据采集中基本方法和工作原理,通过系统设计实现网页数据采集,并实现基于R语言利用RCurl包进行网络爬虫。
【作者单位】: 西安欧亚学院SIGMA数据分析研究所;
【关键词】: R语言 网络爬虫 数据采集
【分类号】:TP391.3
【正文快照】: 大量的数据能够让传统行业更好地了解客户需求,提供个性化的服务。定制化服务的关键是数据。如果说第三次工业革命将是一个从大规模制造向大规模定制演进的过程,那么大数据时代则是另一个科技革命拐点。数据能告诉人们,每一个客户的消费倾向,他们想要什么,喜欢什么,每个人的需
【参考文献】
中国期刊全文数据库 前2条
1 王艳红;周军;;基于Hadoop的网络爬虫技术研究[J];吉林工程技术师范学院学报;2014年08期
2 王映,于满泉,李盛韬,王斌,余智华;JavaScript引擎在动态网页采集技术中的应用[J];计算机应用;2004年02期
【共引文献】
中国期刊全文数据库 前10条
1 王丽娜;李怀;赵磊;;基于模拟用户的Ajax Web自动化测试模型[J];华中科技大学学报(自然科学版);2016年03期
2 王巍;张皋鹏;;基于网络的交互式服装定制设计系统的开发[J];丝绸;2015年05期
3 邓炳光;石志广;张治中;;LTE网络S1接口用户行为分析系统的设计与实现[J];电视技术;2015年09期
4 张跃;;基于网页的数据采集技术研究[J];福建电脑;2014年06期
5 陆亮;李东;;支持AJAX的网络爬虫设计与实现[J];智能计算机与应用;2013年06期
6 林振洲;;VFP技术在网页数据采集中的应用——以高校数字资源建设为例[J];计算机光盘软件与应用;2013年14期
7 马凯;蔡皖东;姚烨;;Web2.0环境下SQL注入漏洞注入点提取方法[J];计算机技术与发展;2013年03期
8 李华波;吴礼发;赖海光;郑成辉;黄康宇;;有效的爬行Ajax页面的网络爬行算法[J];电子科技大学学报;2013年01期
9 王益强;赵静;;网页文本数据自动采集方法综述[J];信息与电脑(理论版);2012年09期
10 钱程;阳小兰;;一种支持Ajax框架的网络爬虫的设计与实现[J];计算机与数字工程;2012年04期
【相似文献】
中国期刊全文数据库 前10条
1 戚欣;;基于本体的主题网络爬虫设计[J];武汉理工大学学报;2009年03期
2 彭轲;廖闻剑;;基于浏览器服务的网络爬虫[J];硅谷;2009年04期
3 王江红;朱丽君;李彩虹;;一种新型网络爬虫的设计与实现[J];微计算机信息;2010年03期
4 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期
5 杨靖韬;陈会果;;对网络爬虫技术的研究[J];科技创业月刊;2010年10期
6 于成龙;于洪波;;网络爬虫技术研究[J];东莞理工学院学报;2011年03期
7 李志义;;网络爬虫的优化策略探略[J];现代情报;2011年10期
8 焦赛美;;网络爬虫技术的研究[J];琼州学院学报;2011年05期
9 宋海洋;刘晓然;钱海俊;;一种新的主题网络爬虫爬行策略[J];计算机应用与软件;2011年11期
10 王娟;吴金鹏;;网络爬虫的设计与实现[J];软件导刊;2012年04期
中国重要会议论文全文数据库 前4条
1 夏诏杰;郭力;李晓霞;;化学主题网络爬虫的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
2 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
3 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
4 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
中国硕士学位论文全文数据库 前10条
1 陶俊文;基于Heritrix框架的专业镇信息网络爬虫系统[D];华南理工大学;2015年
2 马汉超;基于主题网络爬虫的汽车行业多元信息web系统设计与实现[D];西南交通大学;2015年
3 李威;基于交通流量图的交通信息提取技术研究[D];长安大学;2015年
4 朱嵘良;分布式并行环境下的网络爬虫研究[D];中央民族大学;2015年
5 周思华;股票系统之热门话题发现子系统的设计与实现[D];哈尔滨工业大学;2015年
6 丁杰;基于网络爬虫的虚假网页主动智能检测[D];华北电力大学;2015年
7 唐华栋;网页防抓取系统的设计与实现[D];哈尔滨工业大学;2015年
8 白剑飞;基于层次主题模型的网络新闻汇聚[D];浙江大学;2015年
9 袁野;企业内网搜索引擎关键技术研究与实现[D];电子科技大学;2014年
10 滕以芳;基于本体的多媒体素材网络爬虫设计与实现[D];吉林大学;2015年
,本文编号:630039
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/630039.html