微博用户兴趣挖掘技术研究
发布时间:2017-04-25 04:18
本文关键词:微博用户兴趣挖掘技术研究,由笔耕文化传播整理发布。
【摘要】:微博作为当前最流行的社交网络平台之一,用户可以通过计算机或移动终端关注和分享自己感兴趣的信息,发表个人观点等。微博已经成了一个实时信息获取、分享、交流和传播的平台。互联网上每天都产生着数以亿计的微博数据,这些由用户所产生的海量微博数据背后蕴含着巨大的商业价值,而准确地分析用户兴趣对挖掘微博价值和提升微博用户体验有着重要的意义。 本文基于模拟浏览器行为的方式爬取海量微博数据,然后对微博数据进行自动清洗,再利用切词、分类、关键词抽取等多种自然语言处理技术对处理后的用户微博数据进行分析和挖掘。本文主要工作如下: 第一,通过Http Watch9.1截取和分析网页数据流,并基于模拟浏览器行为技术和清洗模式规则技术,自动化爬取、采集和清洗海量微博数据; 第二,结合微博内容特性,对传统TF-IDF算法模型进行应用改进和拓展,提出融合基本IDF词典和联合兴趣度的动态IDF词典的用户个性化IDF词典,并基于改进的TF-IDF算法应用模型抽取基于用户微博内容的兴趣关键词; 第三,研究分析了广义僵尸用户的定义和判别特征的选择,并针对微博用户特点,使用基于多特征融合的AdaBoost.Ml分类算法对目标用户的关联用户进行分类和处理;同时在传统排名算法PageRank的基础上,考虑微博用户关联关系特性,提出了RelationRank算法对关联用户进行重要性排序,最后通过筛选所得到的关联用户的微博内容对目标用户的兴趣进行描述。 最后,基于上述研究内容,文中采用模块化分层设计思想,设计并实现了一个微博用户兴趣挖掘平台,并通过实验对比分析了兴趣挖掘平台的有效性和准确性。
【关键词】:微博数据采集 IDF词典 广义僵尸用户 RelationRank算法 用户兴趣挖掘
【学位授予单位】:华东理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092;TP391.1
【目录】:
- 摘要5-6
- ABSTRACT6-10
- 第1章 绪论10-15
- 1.1 研究背景及意义10-13
- 1.1.1 研究背景10-13
- 1.1.2 研究意义13
- 1.2 本文主要研究内容13-14
- 1.2.1 海量微博数据自动化爬取采集技术13
- 1.2.2 基于目标用户微博内容的兴趣关键词抽取模型13
- 1.2.3 基于关联用户微博内容的兴趣关键词抽取模型13-14
- 1.2.4 微博用户兴趣挖掘平台架构设计与实现14
- 1.3 本文章节安排14-15
- 第2章 相关技术综述15-24
- 2.1 网络爬虫技术15-16
- 2.1.1 网络爬虫背景15
- 2.1.2 网络爬虫现状分析15-16
- 2.2 中文切词技术16-18
- 2.2.1 中文切词背景16-17
- 2.2.2 中文切词现状分析17-18
- 2.3 关键词抽取技术18-19
- 2.3.1 关键词抽取背景18-19
- 2.3.2 关键词抽取现状分析19
- 2.4 用户兴趣建模技术19-21
- 2.4.1 用户兴趣建模背景19-20
- 2.4.2 用户兴趣建模现状分析20-21
- 2.5 其他相关技术21-23
- 2.5.1 分类算法22
- 2.5.2 PageRank算法22-23
- 2.6 本章小结23-24
- 第3章 微博用户兴趣挖掘平台架构24-29
- 3.1 平台设计思想24
- 3.2 平台架构24-25
- 3.3 平台功能层次框架设计25-28
- 3.3.1 数据层25-26
- 3.3.2 算法层26
- 3.3.3 应用层26
- 3.3.4 用户层26-28
- 3.4 本章小结28-29
- 第4章 基于模拟浏览器行为的海量微博数据爬取采集29-49
- 4.1 概述29
- 4.2 基于微博API的数据采集方案29-34
- 4.2.1 应用创建流程与OAuth2.0授权29-30
- 4.2.2 微博API数据采集实现30-34
- 4.2.3 基于微博API采集微博数据优缺点34
- 4.3 基于模拟浏览器行为的微博数据采集方案34-44
- 4.3.1 网页数据分析工具(HttpWatch)34-37
- 4.3.2 微博模拟登录37-39
- 4.3.3 微博数据抓取39-43
- 4.3.4 微博数据解析43-44
- 4.3.5 微博数据存储44
- 4.3.6 基于模拟浏览器行为爬取采集微博数据优缺点44
- 4.4 数值实验与结果分析44-48
- 4.4.1 实验结果45-47
- 4.4.2 实验分析47-48
- 4.5 本章小结48-49
- 第5章 基于目标用户微博内容的兴趣模型49-59
- 5.1 概述49-53
- 5.1.1 微博用户内容49-51
- 5.1.2 微博用户自身信息与用户兴趣关系51-53
- 5.2 基于改进的TF-IDF算法模型的微博用户兴趣关键词抽取53-56
- 5.2.1 基本IDF词典构建及定时更新53
- 5.2.2 基于联合兴趣度的动态IDF词典构建53-55
- 5.2.3 基于微博内容构建用户兴趣关键词研究55-56
- 5.3 数值实验与结果分析56-58
- 5.4 本章小结58-59
- 第6章 基于关联用户微博内容的兴趣模型59-69
- 6.1 概述59-61
- 6.1.1 微博用户关系59
- 6.1.2 关联用户微博内容与目标用户的兴趣关系59-61
- 6.2 基于关联用户微博内容的兴趣关键词抽取61
- 6.3 广义僵尸用户识别61-66
- 6.3.1 广义僵尸用户特征分析和选择63-65
- 6.3.2 广义僵尸用户识别分析65-66
- 6.4 微博关联用户重要性排名算法(RelationRank)66-68
- 6.4.1 RelationRank算法思想66
- 6.4.2 RelationRank算法具体实现66-68
- 6.5 本章小结68-69
- 第7章 微博用户兴趣挖掘平台实现与应用69-78
- 7.1 微博用户兴趣挖掘平台总体设计69
- 7.1.1 平台设计目标69
- 7.1.2 平台主要功能模块69
- 7.2 微博用户兴趣挖掘平台实现69-75
- 7.2.1 微博数据采集模块69-70
- 7.2.2 基于目标用户微博内容兴趣关键词构建模块70-72
- 7.2.3 基于关联用户微博内容兴趣关键词构建模块72-74
- 7.2.4 兴趣关键词可视化模块74-75
- 7.3 微博用户兴趣挖掘平台实验测试75-77
- 7.4 本章小结77-78
- 第8章 总结和展望78-79
- 8.1 研究工作总结78
- 8.2 进一步研究展望78-79
- 参考文献79-85
- 致谢85-86
- 附录186-87
- 附录287-89
- 附录389-91
【参考文献】
中国期刊全文数据库 前10条
1 李玲俐;;数据挖掘中分类算法综述[J];重庆师范大学学报(自然科学版);2011年04期
2 龙树全;赵正文;唐华;;中文分词算法概述[J];电脑知识与技术;2009年10期
3 李华波;吴礼发;赖海光;郑成辉;黄康宇;;有效的爬行Ajax页面的网络爬行算法[J];电子科技大学学报;2013年01期
4 钟思志;林秋霞;潘晓晓;傅仰耿;吴英杰;;基于Base64的URL参数压缩算法[J];福州大学学报(自然科学版);2013年05期
5 张丹;;中文分词算法综述[J];黑龙江科技信息;2012年08期
6 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
7 李稚楹;杨武;谢治军;;PageRank算法研究综述[J];计算机科学;2011年S1期
8 郑斐然;苗夺谦;张志飞;高灿;;一种中文微博新闻话题检测的方法[J];计算机科学;2012年01期
9 唐亚伟;秦玉平;;基于数据挖掘的分类算法综述[J];渤海大学学报(自然科学版);2011年04期
10 曹莹;苗启广;刘家辰;高琳;;AdaBoost算法研究进展与展望[J];自动化学报;2013年06期
本文关键词:微博用户兴趣挖掘技术研究,由笔耕文化传播整理发布。
,本文编号:325628
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/325628.html