社交网络数据抓取和社团发现研究

发布时间：2021-01-23 12:38

　　社交网络服务（Social Networking Services,SNS）是以人和人之间的关系为基础构建起来的用于信息发布和分享的平台。它和在线社区有着本质的区别—在线社区是以信息本身的某属性维度来组织的,通常以内容为中心,如天涯社区；而社交网络则以用户为核心,注重用户间的关系和信息分享,如新浪微博。SNS的概念起源于社会网络研究者提出的“六度理论”,即最多通过六个人就能认识任何一个陌生人。SNS将现实生活中的人际关系搬到了互联网,且目前约有一半以上的中国网民通过社交网络沟通交流,分享信息,它已然成为覆盖用户最广传播影响最大、商业价值最高的web2.0业务。Gartner报告指出,85%的大数据属于广泛存在于社交网络、物联网、电子商务领域的非结构化数据,因此,对于社交网络的数据抓取和挖掘的研究非常重要,本文将在这两方面做一些探究。目前,对于社交网络数据抓取通常基于开放API,对网络数据进行简单的抓取和存储,导致巨大的开发和维护成本,并且不利于对关系数据进行挖掘利用。本文提出了一种基于社交网络自身特征的抓取和存储框架。框架将区分社交网络的内容信息和关系信息,针对性地进行抓取和存储,并且...

【文章来源】：复旦大学上海市 211工程院校 985工程院校教育部直属院校

【文章页数】：61 页

【学位级别】：硕士

【部分图文】：

社交网络数据抓取和社团发现研究

网页爬虫抓取流程

应用场,网络数据,工作流程,框架

从概念上而言，ｎｕｔｃｈ并不是仅仅是一个Ｗｅｂ爬虫，而是一个基于Ｊａｖａ的??开源搜索引擎。它由全文搜索和Ｗｅｂ爬虫两部分姐成。不同于Ｈｅｒｉｔｒｉｘ，Ｎｕｔｃｈ??只能获取页面中可Ｗ索引的内容，并且定制能力不强。其工作流程如图２－３所示：??创建一个ＷｅｂＤＢ，其中存储的是爬虫所抓取的网页之间的链接结构信息。??从一些种子ｕｒｉ开始启动；爬虫会根据ＷｅｂＤＢ中的链接关系按照一定策略生成??一次循环的ｆｅｔｃｈ?ｌｉｓｔ，在一次循环中爬虫会对ｆｅｔｃｈ?ｌｉｓｔ中的ｕｒｉ进行抓取（一次??爬行会生成许多ｓｅｇｍｅｎｔ，段存储的是爬虫在一次抓取过程中抓到的网页和网页??的索引，所有ｓｅｇｍｅｎｔ中的索引合并处理后可ｙｉ■形成ｉｎｄｅｘ，即所有网页的索引）；??然后爬虫根据取回的新网页更新ＷｅｂＤＢ，而更新的ＷｅｂＤＢ可Ｗ用来生成新的??ｆｅｔｃｈ?ｌｉｓｔ。每次ｆｅｔｃｈ?ｌｉｓｔ生成，抓取，更新ＷｅｂＤＢ形成一个＂生成／抓取／更新＂??循环。??诗??１．）的斯ｔ?Ｓｔａｒｔ。化?一＾???Ｖ?５．）?ｕｐｄａｔｅ?ｃｒａｗＩＤＢ?ｎｅｗ?ｅｘｔｒａｃｔｅｄ?ｕｒｉｓ?＼?ｉｎｄｅｘ?＼??Ｉ?４?■?ｊｔｇＭａｇｇｊｇｇｕａｉＡ．??ｃｏｎｉｅｍ?ｐａｒｓｅｒ?／?＼?ＪｐＨ??２．）?ｇｅｎｅｒａｔｅ?ｓｅｇｍｅｎｔ?＾?１｜｜｜ｋ?ｓ．?ｊ?Ａ?ｆｕｃｅｗ?ｑｕｅｒｙ??（ｃｏｎｌ＾ｎｓｕｒｔｓｓｃｈｅｄｕｌｅｄ?ｆｏｒＩｅ？ｈｉｎｇ）?＾?＾４．）?ｐａｒ＾?ｃｏｍｅｎ．?／??

反馈机制,策略,用户关系

关系反馈??图３－２、抓取和存储的反馈机制??如图３－２所示，抓取策略直接影响关系抓取，确定是否抓取某些用户，Ｗ及??抓取这些用户的优先顺序。当确定了要抓取的用户关系，进行内容抓取时，可??认为抓取策略间接影响了内容的抓取。抓取子系统会分别针对这两种信息进行抓??取，面向内容数据和关系数据分别进行存储，同时这两部分数据又可通过定制??化的抓取策略对抓取过程进行动态调整。这就形成了一种反馈机制，当有一定数??据积累后，可Ｗ逐渐做到趋于精准的数据抓取。??１６??

【参考文献】：
期刊论文
[1]基于Heritrix限定爬虫的设计与实现[J]. 张敏,孙敏.  计算机应用与软件. 2013(04)
[2]基于Heritrix的面向特定主题的聚焦爬虫研究[J]. 朱敏,罗省贤.  计算机技术与发展. 2012(02)
[3]拓展人脉还是维护关系——社会资本视野下的SNS网站悖论[J]. 庄佳婧.  新闻大学. 2010(02)
[4]SNS社交网络发展现状及趋势[J]. 王亮.  现代电信科技. 2009(06)
[5]网络蜘蛛搜索策略比较研究[J]. 李学勇,欧阳柳波,李国徽,钟敏娟.  计算机工程与应用. 2004(04)

本文编号：2995225

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/ydhl/2995225.html

上一篇：策论软件定义网络及安全技术
下一篇：大数据环境下网络安全的计算机信息技术

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|