社交网络数据抓取和社团发现研究
发布时间:2021-01-23 12:38
社交网络服务(Social Networking Services,SNS)是以人和人之间的关系为基础构建起来的用于信息发布和分享的平台。它和在线社区有着本质的区别—在线社区是以信息本身的某属性维度来组织的,通常以内容为中心,如天涯社区;而社交网络则以用户为核心,注重用户间的关系和信息分享,如新浪微博。SNS的概念起源于社会网络研究者提出的“六度理论”,即最多通过六个人就能认识任何一个陌生人。SNS将现实生活中的人际关系搬到了互联网,且目前约有一半以上的中国网民通过社交网络沟通交流,分享信息,它已然成为覆盖用户最广传播影响最大、商业价值最高的web2.0业务。Gartner报告指出,85%的大数据属于广泛存在于社交网络、物联网、电子商务领域的非结构化数据,因此,对于社交网络的数据抓取和挖掘的研究非常重要,本文将在这两方面做一些探究。目前,对于社交网络数据抓取通常基于开放API,对网络数据进行简单的抓取和存储,导致巨大的开发和维护成本,并且不利于对关系数据进行挖掘利用。本文提出了一种基于社交网络自身特征的抓取和存储框架。框架将区分社交网络的内容信息和关系信息,针对性地进行抓取和存储,并且...
【文章来源】:复旦大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
网页爬虫抓取流程
从概念上而言,nutch并不是仅仅是一个Web爬虫,而是一个基于Java的??开源搜索引擎。它由全文搜索和Web爬虫两部分姐成。不同于Heritrix,Nutch??只能获取页面中可W索引的内容,并且定制能力不强。其工作流程如图2-3所示:??创建一个WebDB,其中存储的是爬虫所抓取的网页之间的链接结构信息。??从一些种子uri开始启动;爬虫会根据WebDB中的链接关系按照一定策略生成??一次循环的fetch?list,在一次循环中爬虫会对fetch?list中的uri进行抓取(一次??爬行会生成许多segment,段存储的是爬虫在一次抓取过程中抓到的网页和网页??的索引,所有segment中的索引合并处理后可yi■形成index,即所有网页的索引);??然后爬虫根据取回的新网页更新WebDB,而更新的WebDB可W用来生成新的??fetch?list。每次fetch?list生成,抓取,更新WebDB形成一个"生成/抓取/更新"??循环。??诗??1.)的斯t?Start。化?一^???V?5.)?update?crawIDB?new?extracted?uris?\?index?\??I?4?■?jtgMaggjgguaiA.??coniem?parser?/?\?JpH??2.)?generate?segment?^?1|||k?s.?j?A?fucew?query??(conl^nsurtsscheduled?forIe?hing)?^?^4.)?par^?comen.?/??
关系反馈??图3-2、抓取和存储的反馈机制??如图3-2所示,抓取策略直接影响关系抓取,确定是否抓取某些用户,W及??抓取这些用户的优先顺序。当确定了要抓取的用户关系,进行内容抓取时,可??认为抓取策略间接影响了内容的抓取。抓取子系统会分别针对这两种信息进行抓??取,面向内容数据和关系数据分别进行存储,同时这两部分数据又可通过定制??化的抓取策略对抓取过程进行动态调整。这就形成了一种反馈机制,当有一定数??据积累后,可W逐渐做到趋于精准的数据抓取。??16??
【参考文献】:
期刊论文
[1]基于Heritrix限定爬虫的设计与实现[J]. 张敏,孙敏. 计算机应用与软件. 2013(04)
[2]基于Heritrix的面向特定主题的聚焦爬虫研究[J]. 朱敏,罗省贤. 计算机技术与发展. 2012(02)
[3]拓展人脉还是维护关系——社会资本视野下的SNS网站悖论[J]. 庄佳婧. 新闻大学. 2010(02)
[4]SNS社交网络发展现状及趋势[J]. 王亮. 现代电信科技. 2009(06)
[5]网络蜘蛛搜索策略比较研究[J]. 李学勇,欧阳柳波,李国徽,钟敏娟. 计算机工程与应用. 2004(04)
本文编号:2995225
【文章来源】:复旦大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
网页爬虫抓取流程
从概念上而言,nutch并不是仅仅是一个Web爬虫,而是一个基于Java的??开源搜索引擎。它由全文搜索和Web爬虫两部分姐成。不同于Heritrix,Nutch??只能获取页面中可W索引的内容,并且定制能力不强。其工作流程如图2-3所示:??创建一个WebDB,其中存储的是爬虫所抓取的网页之间的链接结构信息。??从一些种子uri开始启动;爬虫会根据WebDB中的链接关系按照一定策略生成??一次循环的fetch?list,在一次循环中爬虫会对fetch?list中的uri进行抓取(一次??爬行会生成许多segment,段存储的是爬虫在一次抓取过程中抓到的网页和网页??的索引,所有segment中的索引合并处理后可yi■形成index,即所有网页的索引);??然后爬虫根据取回的新网页更新WebDB,而更新的WebDB可W用来生成新的??fetch?list。每次fetch?list生成,抓取,更新WebDB形成一个"生成/抓取/更新"??循环。??诗??1.)的斯t?Start。化?一^???V?5.)?update?crawIDB?new?extracted?uris?\?index?\??I?4?■?jtgMaggjgguaiA.??coniem?parser?/?\?JpH??2.)?generate?segment?^?1|||k?s.?j?A?fucew?query??(conl^nsurtsscheduled?forIe?hing)?^?^4.)?par^?comen.?/??
关系反馈??图3-2、抓取和存储的反馈机制??如图3-2所示,抓取策略直接影响关系抓取,确定是否抓取某些用户,W及??抓取这些用户的优先顺序。当确定了要抓取的用户关系,进行内容抓取时,可??认为抓取策略间接影响了内容的抓取。抓取子系统会分别针对这两种信息进行抓??取,面向内容数据和关系数据分别进行存储,同时这两部分数据又可通过定制??化的抓取策略对抓取过程进行动态调整。这就形成了一种反馈机制,当有一定数??据积累后,可W逐渐做到趋于精准的数据抓取。??16??
【参考文献】:
期刊论文
[1]基于Heritrix限定爬虫的设计与实现[J]. 张敏,孙敏. 计算机应用与软件. 2013(04)
[2]基于Heritrix的面向特定主题的聚焦爬虫研究[J]. 朱敏,罗省贤. 计算机技术与发展. 2012(02)
[3]拓展人脉还是维护关系——社会资本视野下的SNS网站悖论[J]. 庄佳婧. 新闻大学. 2010(02)
[4]SNS社交网络发展现状及趋势[J]. 王亮. 现代电信科技. 2009(06)
[5]网络蜘蛛搜索策略比较研究[J]. 李学勇,欧阳柳波,李国徽,钟敏娟. 计算机工程与应用. 2004(04)
本文编号:2995225
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2995225.html