当前位置:主页 > 经济论文 > 房地产论文 >

基于网络爬虫的北京市房价研究

发布时间:2020-12-21 11:01
  随着信息革命的到来,互联网的蓬勃发展,生活方式的改变,网络成为了我们日常生活的必需品。面对大量的网络资源,学会合理地使用搜索引擎则可以给我们带来很多方便。在搜索引擎中,我们利用一些关键字进行搜索,它就会返回给我们大量的跟这个关键字相关的信息,在这个过程中,不得不提的就是爬虫技术了。搜索引擎就是充分地运用了爬虫技术才得以从海量的信息网络中抓取到与之关联的信息,并快速地响应给我们。但是随着数据时代的到来,网络信息浩如烟海,随着技术的更迭,反爬虫也越来越得到重视与加强,从中提取出我们需要的信息也变得越来越困难了。另外,房价现在是我们生活中最热门的词汇之一,它与我们每一个人都息息相关。因此,房价的数据也是很值得做一番研究的,将计算机网络爬虫技术运用到房价中,则正是本文研究的内容之一。首先,我们需要一些房价的数据。在此之前,我们需要确定房价数据的来源,即目标网站。对比分析了几个著名的房产信息网站,最后确定了以“安居客”为爬取对象。然后,就是如何抓取房价数据了,这方面的工作可以通过计算机爬虫技术来完成。针对爬虫本身,本文中我运用了一款新型的网络爬虫框架,名叫elastic-spider,这是一款基... 

【文章来源】:长江大学湖北省

【文章页数】:64 页

【学位级别】:硕士

【部分图文】:

基于网络爬虫的北京市房价研究


通用爬虫框架流程

工作流程图,网络爬虫,工作流程图,队列


6图2-2 网络爬虫工作流程图Figure 2-2 Work flow chart of web crawler然后下载器开始下载网页内容。对于已下载的网页内容,会有两种方式来处理它:1)将其存储到事先已设定好的页面库中,等待后续被索引处理;2)给此页面打标记,表示该网页已被爬取过了,并将此页面放到已抓取 URL 的队列中。另外,已被下载的网页还需要被进一步解析,主要目的是从中提取出其他 URL,并将这些URL 与已抓取 URL 队列进行比对,如果已抓取的 URL 队列中不包含该 URL

二叉树,广度优先搜索算法


图 2-3 二叉树Figure 2-3 Binary tree假如把每个二叉树中的节点比作一个网页,把整个二叉树比作网络资源,的关系用线段联系起来。那么采用深度优先搜索算法进行网络爬虫的话,的顺序为:A-B-C-D-E-F-G-H-I-J-K-L,这样就可以保证把所有页面都检索到2 广度优先搜索算法广度优先搜索算法也可以借助二叉树这种数据结构来理解,但是区别于深索算法,它不是以分支作为搜索的单位,它是以层级作为搜索的单位,从点开始遍历下层节点,直到下层节点不存在为止。针对上图 2-3 的二叉树采用广度优先搜索算法搜索整个网络资源的话,那么搜索顺序则如-D-I-C-E-H-J-L-F-K 。2.3 几种常用的网络爬虫框架1 Nutch 爬虫框架Nutch 是一款可以支持分布式爬取的爬虫框架,是 Apache 的项目之一,存

【参考文献】:
期刊论文
[1]基于语义的文档特征提取研究方法[J]. 姜芳,李国和,岳翔.  计算机科学. 2016(02)
[2]一种基于本体语义的灾害主题爬虫策略[J]. 马雷雷,李宏伟,连世伟,梁汝鹏,陈虎.  计算机工程. 2016(11)
[3]基于TF-IDF改进算法的聚焦主题网络爬虫[J]. 王景中,邱铜相.  计算机应用. 2015(10)
[4]基于网络搜索数据的房地产价格预测[J]. 董倩,孙娜娜,李伟.  统计研究. 2014(10)
[5]基于均值密度中心估计的k-means聚类文本挖掘方法[J]. 符保龙,张爱科.  重庆邮电大学学报(自然科学版). 2014(01)
[6]基于遗传算法的主题爬虫[J]. 张海亮,袁道华.  计算机技术与发展. 2012(08)
[7]北京商品房房价影响因素的实证分析[J]. 崔承颖.  生产力研究. 2011(09)
[8]基于K-均值聚类算法的医药制造业竞争力评价实证研究[J]. 陈红川,刘斌.  科技管理研究. 2011(16)
[9]Nutch分布式网络爬虫研究与优化[J]. 詹恒飞,杨岳湘,方宏.  计算机科学与探索. 2011(01)
[10]基于K-均值聚类的卷烟市场研究[J]. 霍叶青,何跃.  中国商贸. 2010(04)

博士论文
[1]基于特征分析和数据降维的复杂数据预测与分类方法研究[D]. 邵臻.合肥工业大学 2015

硕士论文
[1]基于训练集聚类的KNN算法及其应用研究[D]. 郇益斌.山东科技大学 2017
[2]基于Scrapy的分布式网络新闻抓取系统设计与实现[D]. 马联帅.西安电子科技大学 2015
[3]基于随机森林理论的北京市二手房估价模型研究[D]. 陈奕佳.北京交通大学 2015
[4]基于虚拟机的Hadoop分布式聚类挖掘方法研究与应用[D]. 尚丹丹.哈尔滨理工大学 2015
[5]主题网络爬虫关键技术的研究与应用[D]. 陈千.北京理工大学 2015
[6]网络搜索数据与消费者信心指数的相关性研究[D]. 樊国虎.吉林大学 2014
[7]基于ACO-LS-SVM的房地产价格评估研究[D]. 于秀雪.大连理工大学 2013
[8]基于Nutch的分布式搜索引擎的研究与优化[D]. 万文宏.武汉理工大学 2013
[9]基于随机森林模型的二手房价格评估研究[D]. 杨沐晞.中南大学 2012
[10]基于Hadoop的分布式网络爬虫技术[D]. 郑博文.哈尔滨工业大学 2011



本文编号:2929717

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/fangdichanjingjilunwen/2929717.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e7b3f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com