基于多策略的新浪微博大数据抓取及应用
本文关键词:基于多策略的新浪微博大数据抓取及应用
更多相关文章: 新浪微博API 大数据 数据挖掘 网络爬虫 多策略
【摘要】:微博数据处理属于大数据范畴,其前提是获取大量的微博数据,而由于商业利益以及安全方面的考虑,获取微博数据的途径越来越少。同时随着新浪官方API的逐步更新,数据获取的限制也日益增加。文章尝试利用现有资源,基于多策略获取机制,设计出可稳定获得新浪微博数据的挖掘方案,并给出情感分析应用实例。实验表明,所设计的挖掘方案可以根据需要获取微博上的数据,并可以应用于微博情感分析中。
【作者单位】: 合肥工业大学计算机与信息学院;
【关键词】: 新浪微博API 大数据 数据挖掘 网络爬虫 多策略
【基金】:国家自然科学基金资助项目(61203315) 国家高技术研究发展计划(863计划)资助项目(2012AA011103) 安徽省科技攻关计划资助项目(1206c0805039)
【分类号】:TP311.13;TP393.092
【正文快照】: 新浪微博在发展初期,主要采用国外的Twitter的发展模式。但随着发展而表现出的个性化差异,让新浪微博增加了更多适应于中国用户的客户体验。新浪微博拥有庞大数目的用户群体基础,日均微博总发送量维持在5 000×104~1×108条之间。用户状态、用户关注及粉丝等信息已经成为非常
【参考文献】
中国期刊全文数据库 前3条
1 谢丽星;周明;孙茂松;;基于层次结构的多策略中文微博情感分析和特征抽取[J];中文信息学报;2012年01期
2 周胜臣;瞿文婷;石英子;施询之;孙韵辰;;中文微博情感分析研究综述[J];计算机应用与软件;2013年03期
3 孙晓;李承程;叶嘉麒;任福继;;基于重复字串的微博新词非监督自动抽取[J];合肥工业大学学报(自然科学版);2014年06期
【共引文献】
中国期刊全文数据库 前10条
1 杨学成;隋越;岳欣;;机构微博的社会关系网络构建——以腾讯商学院为例[J];北京邮电大学学报(社会科学版);2012年03期
2 祝方林;;大学图书馆微博信息行为分析[J];高校图书情报论坛;2012年02期
3 张国安;钟绍辉;;基于k均值聚类的微博用户分类的研究[J];电脑知识与技术;2012年26期
4 张国安;钟绍辉;;基于微博用户评论和用户转发的数据挖掘[J];电脑知识与技术;2012年27期
5 赵前东;叶猛;;微博热点话题检测系统的设计与实现[J];电视技术;2013年03期
6 张恺;马忠军;张溯章;;基于桂电微校园的社会网络实证研究[J];桂林电子科技大学学报;2013年02期
7 孙建旺;吕学强;郭嵡秀;;基于微博转发集的微博过滤研究[J];北京信息科技大学学报(自然科学版);2013年03期
8 许星;席鹏富;秦天;;社会网络的舆情信息分析与可视化——以新浪微博为例[J];计算机光盘软件与应用;2013年12期
9 吴维;肖诗斌;;基于多特征与复合分类法的中文微博情感分析[J];北京信息科技大学学报(自然科学版);2013年04期
10 陈舜华;王晓彤;郝志峰;蔡瑞初;肖晓军;卢宇;;基于微博API的分布式抓取技术[J];电信科学;2013年08期
中国博士学位论文全文数据库 前10条
1 谭婷婷;网络微内容推荐方法及支持系统研究[D];华中科技大学;2011年
2 田野;基于微博平台的事件趋势分析及预测研究[D];武汉大学;2012年
3 易兰丽;基于人类动力学的微博用户行为统计特征分析与建模研究[D];北京邮电大学;2012年
4 肖宇;校园网络信息传播特性与用户影响力研究[D];华中科技大学;2012年
5 吴保来;基于互联网的社交网络研究[D];中共中央党校;2013年
6 田占伟;基于复杂网络的微博信息传播研究[D];哈尔滨工业大学;2012年
7 郭龙飞;社交网络用户隐私关注动态影响因素及行为规律研究[D];北京邮电大学;2013年
8 刘行军;微博用户及其信息传播影响因素研究[D];华中师范大学;2013年
9 崔安颀;微博热点事件的公众情感分析研究[D];清华大学;2013年
10 郭晓姝;企业微博信息互动传播模式、途径与影响因素研究[D];东北财经大学;2013年
中国硕士学位论文全文数据库 前10条
1 许玉;基于微博的网络口碑研究[D];南京大学;2011年
2 张岚岚;新浪微博的网络舆情分析研究[D];华东师范大学;2011年
3 史亚光;企业微博客营销策略研究[D];华东师范大学;2011年
4 纪珊珊;传播学视野下的微博研究[D];安徽大学;2011年
5 邵国川;基于用户参与的高校图书馆信息服务研究[D];安徽大学;2011年
6 施怿;微博在危机事件中的传播特点和效果研究[D];华中科技大学;2011年
7 陆毅;微博社会网络构造与分析技术研究[D];复旦大学;2011年
8 贺佳莹;微博客用户接受模型及实证研究[D];北京邮电大学;2012年
9 胡文静;基于语义理解与PLSA的文本情感分类研究[D];天津师范大学;2012年
10 杨艳;下一代网络业务用户行为研究[D];西南交通大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
2 丁楠;潘有能;;h指数和g指数评价实证研究——基于CSSCI的统计分析[J];图书与情报;2008年02期
3 李华;赵文伟;;微博客:图书馆的下一个网络新贵工具[J];图书与情报;2009年04期
4 孙晓;黄德根;;基于最长次长匹配分词的一体化中文词法分析[J];大连理工大学学报;2010年06期
5 许高建;胡学钢;路遥;王庆人;;一种改进的中文分词歧义消除算法研究[J];合肥工业大学学报(自然科学版);2008年10期
6 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[J];合肥工业大学学报(自然科学版);2012年06期
7 王晓东;刘倩;陶县俊;;情感Ontology构建与文本倾向性分析[J];计算机工程与应用;2010年30期
8 刘志明;刘鲁;;基于机器学习的中文微博情感分类实证研究[J];计算机工程与应用;2012年01期
9 张靖;金浩;;汉语词语情感倾向自动判断研究[J];计算机工程;2010年23期
10 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
【相似文献】
中国期刊全文数据库 前10条
1 彭轲;廖闻剑;;基于浏览器服务的网络爬虫[J];硅谷;2009年04期
2 王江红;朱丽君;李彩虹;;一种新型网络爬虫的设计与实现[J];微计算机信息;2010年03期
3 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期
4 于成龙;于洪波;;网络爬虫技术研究[J];东莞理工学院学报;2011年03期
5 焦赛美;;网络爬虫技术的研究[J];琼州学院学报;2011年05期
6 宋海洋;刘晓然;钱海俊;;一种新的主题网络爬虫爬行策略[J];计算机应用与软件;2011年11期
7 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期
8 曹忠;赵文静;;一种优化的网络爬虫的设计与实现[J];电脑知识与技术;2008年35期
9 邹海亮;孙莉;;可定制的聚焦网络爬虫[J];电子科技;2009年01期
10 杨松梅;;网络爬虫[J];硅谷;2009年15期
中国重要会议论文全文数据库 前5条
1 夏诏杰;郭力;李晓霞;;化学主题网络爬虫的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
2 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
3 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
4 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
5 王庆广;何力;韩伟红;;基于爬虫的有害网站发现与判别系统的实现[A];第27次全国计算机安全学术交流会论文集[C];2012年
中国硕士学位论文全文数据库 前10条
1 龚秋艳;并行网络爬虫设计与实现[D];华东师范大学;2010年
2 么士宇;基于分布式计算的网络爬虫技术研究[D];大连海事大学;2011年
3 陈奋;过滤型网络爬虫的研究与设计[D];厦门大学;2007年
4 金梅;网络爬虫性能提升与功能拓展的研究与实现[D];吉林大学;2012年
5 芮虎;比价购物平台中网络爬虫的设计与实现[D];华东理工大学;2013年
6 赵茉莉;网络爬虫系统的研究与实现[D];电子科技大学;2013年
7 谭龙远;基于领域的网络爬虫技术的研究与实现[D];武汉理工大学;2009年
8 张红云;基于页面分析的主题网络爬虫的研究[D];武汉理工大学;2010年
9 赵鹏程;分布式书籍网络爬虫系统的设计与实现[D];西南交通大学;2014年
10 邹海亮;可定制的聚焦网络爬虫[D];东华大学;2009年
,本文编号:548287
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/548287.html