社会网络上的用户属性推测方法研究
本文关键词:社会网络上的用户属性推测方法研究,,由笔耕文化传播整理发布。
【摘要】:在线社交网站是web2.0时代的标志性产物,它改变了人们的生活方式,数以千万的用户在社交网站上联络好友、分享动态、参与活动。社交网站提供基本资料页面供注册用户填写,如性别、生日、地理位置、教育背景、兴趣爱好等等,然而现实却是,社交网站的用户资料存在着严重的不完整、不准确问题。本文研究社交网络中的用户属性推测方法,主要贡献包括以下三点:第一,传统关系型数据分类方法是基于不同的应用场景提出的,本文详尽考察了相关的经典算法,并在真实社交网络用户属性数据集上进行横向对比实验,对照实验结果对经典算法的优劣展开讨论。第二,本文结合社会学中“强关系”和“弱关系”的划分,分析了利用同质性进行属性推测的本质,提出了“同质边”与“异质边”的概念,指出“异质边”是影响属性推测的噪音。随后本文引入扩展的欧式距离,提出一种自学习的边的同质性度量,使用该度量采取简单的删边降噪手段,实验证明了结合该自学习度量的降噪手段的有效性。该部分研究展示了寻求有效的数据预处理手段,可以在一定程度上提高属性推测的准确率。第三,本文提出一种新的用户属性推测方法——跳数限制的近邻算法(Hops Limited Relational Neighbor),它主要针对经典算法LI(Local Iterative)的不稳定问题,一个重要缺陷是迭代轮数增加时,准确率先上升后下降。通过在LI算法框架下,重新设计邻居节点的投票过程,加入更加细致的标签传播控制、标签传播距离限制和膨胀操作,在准确率可比的前提下,大幅度提高了LI算法的稳定性。
【关键词】:社交网络 属性推测 节点分类 降噪
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.09
【目录】:
- 摘要4-5
- Abstract5-8
- 第1章 绪论8-16
- 1.1 课题的研究背景及意义8-10
- 1.2 问题规范化表示10
- 1.3 研究现状与待解决问题10-13
- 1.3.1 研究现状10-13
- 1.3.2 待解决的问题13
- 1.4 论文主要研究内容与组织结构13-16
- 1.4.1 主要研究内容13-14
- 1.4.2 组织结构14-16
- 第2章 社交网络中用户属性推测问题描述16-23
- 2.1 用户属性的标签表示16-17
- 2.2 相关度量及评价方法17-18
- 2.2.1 相关度量17-18
- 2.2.2 评价方法18
- 2.3 数据收集与实验数据集抽取18-23
- 2.3.1 数据收集18-20
- 2.3.2 数据集抽取20-23
- 第3章 社交网络中用户属性推测相关方法23-34
- 3.1 引言23
- 3.2 经典网络结构数据的分类方法23-27
- 3.2.1 SVM24-25
- 3.2.2 GNN25
- 3.2.3 CNM算法与LPA算法25-26
- 3.2.4 IRN算法与LI算法26-27
- 3.3 对比实验27-32
- 3.3.1 用户学校数据集上的实验28-29
- 3.3.2 用户学院数据集上的实验29-31
- 3.3.3 用户性别数据集上的实验31-32
- 3.4 本章小结32-34
- 第4章 基于自学习度量的边的同质性评价34-48
- 4.1 引言34
- 4.2 异质边对属性推测的影响34-38
- 4.2.1 同质边与异质边34-35
- 4.2.2 异质边的影响35
- 4.2.3 验证实验及结论35-38
- 4.3 边的同质性评价38-40
- 4.3.1 常见的相似性度量38
- 4.3.2 欧氏距离及扩展38-39
- 4.3.3 自学习度量的应用39-40
- 4.4 使用自学习度量对边降噪40-41
- 4.5 实验41-47
- 4.5.1 PR曲线实验41-44
- 4.5.2 删边实验44-47
- 4.6 本章小结47-48
- 第5章 跳数限制的近邻算法48-59
- 5.1 前言48
- 5.2 LI算法及其问题48-50
- 5.2.1 LI算法流程48-49
- 5.2.2 LI算法存在的问题49-50
- 5.3 相关的工作50-52
- 5.3.1 p RN50-51
- 5.3.2 δ-LPA51
- 5.3.3 MCL和Label Rank51-52
- 5.4 跳数限制的近邻算法52-54
- 5.5 实验54-58
- 5.5.1 算法稳定性实验54-56
- 5.5.2 算法效果实验56-58
- 5.6 本章小结58-59
- 结论59-61
- 参考文献61-65
- 致谢65
【相似文献】
中国期刊全文数据库 前9条
1 强磊;;3G通用用户属性及其参考结构的研究[J];信息网络;2006年03期
2 叶春晓;符云清;钟将;冯永;;基于属性的委托撤销研究[J];计算机科学;2008年03期
3 余坦;王益民;;一种基于用户属性的搜索算法[J];计算机系统应用;2010年07期
4 唐金鹏;李玲琳;杨路明;;面向用户属性的RBAC模型[J];计算机工程与设计;2010年10期
5 蒋凌志;;基于属性的RBAC系统[J];计算机系统应用;2010年01期
6 叶春晓;符云清;吴中福;;基于角色限制条件的用户-角色指派研究[J];计算机科学;2004年07期
7 ;“小弟弟”盯着你[J];每周电脑报;1997年33期
8 曹玖新;吴江林;石伟;刘波;郑啸;罗军舟;;新浪微博网信息传播分析与预测[J];计算机学报;2014年04期
9 ;[J];;年期
中国重要报纸全文数据库 前3条
1 马志会;有线无线一体化不等于“统一品牌”[N];网络世界;2009年
2 大竹刚;整合互联网服务[N];中国计算机报;2002年
3 本报记者 别坤;王效辙:扁平化网络更高效[N];计算机世界;2013年
中国博士学位论文全文数据库 前1条
1 冯珍;产品级再使用研究[D];西安电子科技大学;2005年
中国硕士学位论文全文数据库 前9条
1 景志珍;基于组合赋权的软件服务评价方法的研究与实现[D];昆明理工大学;2015年
2 薛云霞;微博用户属性识别方法研究[D];苏州大学;2015年
3 张晓;社会网络上的用户属性推测方法研究[D];哈尔滨工业大学;2015年
4 张晓伟;用户属性在加强远程证明安全中的研究[D];太原理工大学;2015年
5 丁璐;基于隐式反馈的音乐推荐技术研究[D];杭州电子科技大学;2015年
6 何伟宾;微博用户属性信息挖掘平台核心功能设计与实现[D];北京邮电大学;2014年
7 张清华;基于资讯价值的移动订阅研究[D];大连理工大学;2010年
8 陈显勇;融合用户属性和兴趣的最大熵推荐算法研究[D];重庆大学;2013年
9 周晓军;基于RB-RBAC_(ex)模型的PMI系统的研究与设计[D];上海交通大学;2010年
本文关键词:社会网络上的用户属性推测方法研究,由笔耕文化传播整理发布。
本文编号:307491
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/307491.html