社交网络人物搜索的研究
本文关键词:社交网络人物搜索的研究,由笔耕文化传播整理发布。
【摘要】:社交网络的蓬勃发展带动大量的用户进入了公共社交网络,除了众多普通用户以外,各行各业的专家也在其上留下了足迹,他们既是信息的消费者,也是信息的生产者。这一切成为社交网络人物搜索重要的数据基础,即人的基本信息,人与人之间的社交关系,与基于人和社交关系产生的微博、微博转发、微博评论等信息流。这些数据和早期专家搜索依赖的企业数据有显著区别。社交网络的数据除了人物众多、领域复杂以外,还具有个人信息稀疏,以及虚假和不稳定等特点,这使得在规范数据上有效的传统专家搜索方法用于社交数据中出现了新的问题。本文的主要工作核心是社交网络上的人物搜索,借鉴了推特公司的社交网络关系存放在单机上处理、Cngos采用分组数据等等前人的工作,并面向在社交网络上找到大量领域兴趣用户(找普通人)和在社交网络上找到领域权威用户(找专家)这两个需求展开研究。主要研究内容包括:社交网络的数据获取、数据索引、用户标签扩展和预测、以及人物排序等四个方面。在社交网络数据获取方面,就社交网络数据抓取中存在的抓取受限和被封的问题,提出了爬虫众包化和拟人化的解决方案,并实际开发和运维了中国爬盟,注册用户超过3万。获取了2.5亿用户的个人档案,8000万人的关注关系,超过200亿条微博,满足了绝大多数研究者对社交网络的数据需求。在数据索引方面,针对静态数据的特点和大规模数据索引的需求,提出了一种自底向上的静态数据构建索引的方法。经测试,单机索引达到100亿条记录、每记录耗费索引1比特、随机并发查询120万次每秒,性能指标显著好于开源NoSQL数据库:LevelDB和Tokyo Cabinet。该成果对外开放,并被众多高科技公司采用。提出了区分解决社交网络用户标签稀疏的问题:对完全没有标签的情况,采用标签预测的方法;对用户有一些标签的情况下,采用标签扩展的方法。标签预测首先通过逻辑回归的监督学习方法计算用户的亲密好友群,再通过亲密好友群的标签来进行标签预测,其结果比基线方法在P@1、P@5、P@10和R@20上提高超过80%。标签扩展通过用户自标签来构造伪标注数据,将标签扩展问题转化为监督学习的问题,测试结果表明我们的方法好于随机游走、生成模型等方法。其中P@1、P@5、P@10和R@10指标领先最好的已知方法10%以上。同时证实了用户双向好友关系的标签权重在训练过程中发挥的影响最大。在人物排序方面,提出了一种改进的PageRank方法用于对社交网络任务进行排序,实现社交网络人物搜索。对不同类型的人物搜索问题,进行了性能评测,发现学术类搜索中基于权威性的算法,职业类搜索中基于活跃性的算法,公司类搜索中基于投票数的算法取得了更好的性能。对通过已知专家找到隐藏专家的方法进行了研究,构造伪标注数据来训练监督学习模型。实验表明,在nDCG的评价方法下,通过增加隐藏专家的能提高人物搜索排名的效果。
【关键词】:社交网络 机器学习 人物搜索
【学位授予单位】:清华大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP391.3
【目录】:
- 摘要3-5
- abstract5-11
- 第1章 引言11-28
- 1.1 研究背景与选题意义11-13
- 1.2 研究现状13-25
- 1.2.1 基于社交关系推荐13-16
- 1.2.2 基于分组信息的推荐16-18
- 1.2.3 事件话题专家发现18-21
- 1.2.4 聚类话题专家发现21-22
- 1.2.5 学术专家发现22-24
- 1.2.6 存在的问题和不足24-25
- 1.3 我们的主要工作和创新点25-28
- 第2章 社交网络数据的获取28-43
- 2.1 引言28
- 2.2 深度网络爬虫的不足28-31
- 2.3 众包爬虫的需求与原理31-35
- 2.3.1 众包爬虫的需求31-32
- 2.3.2 众包爬虫的原理32-35
- 2.4 众包爬虫的实现35-41
- 2.4.1 协议状态机设计35
- 2.4.2 用户账号池管理机制35-37
- 2.4.3 拟人化的爬虫设计37-41
- 2.5 数据分配41
- 2.6 本章小结41-43
- 第3章 社交网络数据的宏观特点43-51
- 3.1 整体情况43
- 3.2 关注数分布43-45
- 3.3 粉丝数分布45-48
- 3.4 微博数分布48-49
- 3.5 用户标签数分布49-50
- 3.6 本章小结50-51
- 第4章 社交网络数据的索引系统51-82
- 4.1 引言51-52
- 4.2 相关工作52-56
- 4.2.1 NoSQL与KV Store52-53
- 4.2.2 缓存感知机制53-56
- 4.3 THUIRDB的简介56-59
- 4.4 THUIRDB的实现59-69
- 4.4.1 预处理59-61
- 4.4.2 存储结构61-62
- 4.4.3 搜索结构62-68
- 4.4.4 时间和空间复杂度分析68-69
- 4.5 实验与评价69-79
- 4.5.1 实验准备69-71
- 4.5.2 实验和评价方法71-77
- 4.5.3 讨论77-79
- 4.6 本章小结79-82
- 第5章 社交网络用户的标签扩展82-103
- 5.1 引言82-83
- 5.2 相关工作83-84
- 5.3 问题定义和调研84-88
- 5.4 我们的方法88-91
- 5.5 实验91-99
- 5.5.1 数据集和工具91
- 5.5.2 研究问题91
- 5.5.3 训练过程91-92
- 5.5.4 基线方法92
- 5.5.5 评价和分析92-99
- 5.6 讨论99-102
- 5.7 本章小结102-103
- 第6章 社交网络用户的标签预测103-119
- 6.1 概述103-104
- 6.2 逻辑回归方法的回顾104-106
- 6.3 两阶段标签预测106-111
- 6.3.1 亲密好友预测106-110
- 6.3.2 标签预测110-111
- 6.4 实验111-118
- 6.4.1 实验准备111-112
- 6.4.2 实验结果112-118
- 6.5 本章小结118-119
- 第7章 社交网络上的人物排序119-135
- 7.1 引言119-120
- 7.2 问题定义120-121
- 7.3 排序121-124
- 7.3.1 标准PageRank算法的问题122-123
- 7.3.2 PageRank算法的改进123-124
- 7.4 实验124-134
- 7.4.1 实验数据124-125
- 7.4.2 实验评价125-134
- 7.5 本章小结134-135
- 第8章 社交网络隐藏专家的挖掘135-158
- 8.1 引言135-140
- 8.2 假设检验140-145
- 8.2.1 问题1-专家之间的关注142-144
- 8.2.2 问题2-专家之间的互动144
- 8.2.3 问题3-专家和兴趣用户的关系144-145
- 8.3 寻找隐藏专家145-148
- 8.3.1 伪标注训练语料146
- 8.3.2 神经网络146-148
- 8.4 实验148-155
- 8.4.1 实验的主要目的148
- 8.4.2 实验设置148-149
- 8.4.3 实验评价149-155
- 8.5 样例分析155-157
- 8.5.1 极端的例子155-156
- 8.5.2 不好的样例156
- 8.5.3 正面的样例156-157
- 8.6 本章小结157-158
- 第9章 总结与展望158-161
- 参考文献161-167
- 致谢167-168
- 个人简历、在学期间发表的学术论文与研究成果168-169
【相似文献】
中国期刊全文数据库 前10条
1 ;基于位置的手机社交网络“贝多”正式发布[J];中国新通信;2008年06期
2 曹增辉;;社交网络更偏向于用户工具[J];信息网络;2009年11期
3 ;美国:印刷企业青睐社交网络营销新方式[J];中国包装工业;2010年Z1期
4 李智惠;柳承烨;;韩国移动社交网络服务的类型分析与促进方案[J];现代传播(中国传媒大学学报);2010年08期
5 贾富;;改变一切的社交网络[J];互联网天地;2011年04期
6 谭拯;;社交网络:连接与发现[J];广东通信技术;2011年07期
7 陈一舟;;社交网络的发展趋势[J];传媒;2011年12期
8 殷乐;;全球社交网络新态势及文化影响[J];新闻与写作;2012年01期
9 许丽;;社交网络:孤独年代的集体狂欢[J];上海信息化;2012年09期
10 李玲丽;吴新年;;科研社交网络的发展现状及趋势分析[J];图书馆学研究;2013年01期
中国重要会议论文全文数据库 前10条
1 赵云龙;李艳兵;;社交网络用户的人格预测与关系强度研究[A];第七届(2012)中国管理学年会商务智能分会场论文集(选编)[C];2012年
2 宫广宇;李开军;;对社交网络中信息传播的分析和思考——以人人网为例[A];首届华中地区新闻与传播学科研究生学术论坛获奖论文[C];2010年
3 杨子鹏;乔丽娟;王梦思;杨雪迎;孟子冰;张禹;;社交网络与大学生焦虑缓解[A];心理学与创新能力提升——第十六届全国心理学学术会议论文集[C];2013年
4 毕雪梅;;体育虚拟社区中的体育社交网络解析[A];第九届全国体育科学大会论文摘要汇编(4)[C];2011年
5 杜p,
本文编号:379811
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/379811.html