基于多标签学习的社交网络用户人格预测方法研究
发布时间:2017-04-13 00:11
本文关键词:基于多标签学习的社交网络用户人格预测方法研究,由笔耕文化传播整理发布。
【摘要】:随着Internet的迅速普及,社交网络开始在大众生活中扮演重要的角色,人们通过社交网络进行交流互动正在成为一种重要的沟通方式,借助网络社交平台发表观点、联系好友、讨论公共话题等,社交网络成为了现实社会的延伸。每时每刻都有大量用户在公共社交网站(如Facebook)上频繁活动,或浏览信息,或更新状态,随着用户在社交网络中的需求越来越多,如何提供个性化服务已经成为网络社交平台智能化的研究热点,如好友推荐,商品推广等。人格特质作为影响用户行为的重要因素之一,可对个性化服务质量的提高产生重要的作用,对社交网络用户的人格进行分析和预测具有广阔的应用前景。在人格心理学领域有多种不同的人格流派,其中,特质流派给人格提供了一种相对科学可靠的分析和量化的可能。人格特质流派目前最可靠、最主流的模型是大五人格模型,它从五个方面来描述一个人的人格,这五个维度分别为外向性、神经质或情绪稳定性、宜人性或随和性、尽责性以及开放性,大五人格模型认为人格由多种性格特征所组成并且结构相对稳定。大五人格与人们在生活中的行为有关,同时也与网络行为具有很强的相关性,可以利用网络挖掘技术,通过建立网络行为特征与人格特质之间的关系计算模型,来实现通过社交网络信息对用户的人格特质进行预测。近年来,对社交网络用户人格预测的相关研究开始出现,相比于自陈量表的人格计算手段,利用网络信息进行自动化的人格预测具有便利性与客观性。研究者们面向用户网络文本信息及可获得的其它相关信息,进行相应的特征提取,并采用如k NN,SVM,朴素贝叶斯以及决策树等不同的机器学习算法,构建人格预测模型。大量实验结果表明,基于社交网络信息,可以有效地进行自动化的用户人格预测。但目前工作中预测结果的准确性并不是特别理想,需要给出更好的适合于用户人格预测问题的自动化预测方法,以及进一步从网络社交平台用户生成的信息中挖掘出与人格特质具有高度相关性的特征,并探索人格特质之间的内在联系。本文基于上述问题,主要做了以下工作:针对用户在社交网站上的文本状态信息,面向人格预测,提出了结合基于词的形式特征与语义特征的特征设计方案。其中,基于词的形式特征包括基于信息增益提取的词特征,情感特征,语法上的词性与时态特征,以及写作风格特征,并依据特征与类别标签集合的相关性,运用MLFSIE-W算法进行特征选择与加权;语义特征方面,基于Word Net通用本体映射,定义了概念向量,并给出了结合语义距离与语义重合度的文本语义相关度计算方法;最后根据语义相关度和基于词特征的相似度,给出了综合相似度计算方法。在实验中,与相关工作采用的各种特征基于相同的机器学习算法进行了对比,随后还讨论了形式特征和语义特征在人格预测中的作用。针对用户人格预测的相关研究中通常采用单标签机器学习算法处理的问题,本文采用一种基于随机游走模型的多标签用户人格预测方法来进行分析和处理。因为通过对大五人格的分析以及用户人格特质的表现形式,人格预测问题在本质上应该属于一种多标签学习问题。在执行随机游走模型算法的过程中,利用综合相似度改进其原始的基于欧式距离的边权重计算方法来构造随机游走图,经过迭代与转化,得到每个用户隶属于各个类标签的概率分布,结合阈值的计算,最终给出多标签预测结果。实验表明,该方法比采用SVM、k NN和NB等主流单标签分类器的方法具有更好的预测效果,这种方法考虑到了类标签之间的潜在相关性,预测结果更为合理。针对目前相关研究中关于社交网络用户人格预测的各项评价指标结果普遍不高的情况,本文提出采用集成学习的方式,结合随机游走模型,给出了集成多标签学习的用户人格预测方法。在面向多标签学习的集成方法Ada Boost.MH框架下,改变原始的将多标签问题分解成多个二分类并用二类分类器作为基分类器同时进行迭代的思想,直接运用基于随机游走模型的多标签分类器作为基分类器,既能够在基分类器的层面上保留类标签之间的相关性信息,又可以达到集成学习的目的。实验结果表明,面向人格预测问题,集成多标签学习方法是有效的,能够在多标签基分类器的基础上进一步提高预测的各项评价指标结果,达到更好的预测效果。
【关键词】:社交网络 人格预测 多标签学习 社会计算
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.09;TP181
【目录】:
- 摘要4-7
- abstract7-12
- 第1章 绪论12-17
- 1.1 研究背景12-13
- 1.2 研究内容13-15
- 1.3 研究意义15
- 1.4 本文结构安排15-17
- 第2章 相关介绍与研究现状17-24
- 2.1 人格模型17
- 2.2 大五人格17-19
- 2.3 大五人格与社交网络19-20
- 2.4 目前研究现状20-23
- 2.5 本章小结23-24
- 第3章 特征设计24-33
- 3.1 数据预处理24-25
- 3.2 基于词的特征25-29
- 3.2.1 信息增益25-26
- 3.2.2 其它形式特征26-27
- 3.2.3 特征选择与加权27-29
- 3.3 语义特征29-32
- 3.4 本章小结32-33
- 第4章 基于随机游走模型的用户人格预测33-42
- 4.1 多标签学习33-35
- 4.2 随机游走模型35-39
- 4.3 用户人格预测方法39-40
- 4.4 本章小结40-42
- 第5章 集成多标签学习方法的用户人格预测42-50
- 5.1 集成学习42-43
- 5.2 提升方法43-46
- 5.2.1 概述43-44
- 5.2.2 AdaBoost44-46
- 5.3 多标签AdaBoost.MH框架46-47
- 5.4 用户人格预测方法47-49
- 5.5 本章小结49-50
- 第6章 实验及结果对比分析50-57
- 6.1 实验数据50-51
- 6.2 实验设计51-52
- 6.3 实验结果及分析52-56
- 6.4 本章小结56-57
- 第7章 总结与展望57-60
- 7.1 本文工作总结57-58
- 7.2 工作展望58-60
- 参考文献60-65
- 作者简介及在学期间所取得的科研成果65-66
- 致谢66
【参考文献】
中国期刊全文数据库 前2条
1 张振海;李士宁;李志刚;陈昊;;一类基于信息熵的多标签特征选择算法[J];计算机研究与发展;2013年06期
2 郑伟;王朝坤;刘璋;王建民;;一种基于随机游走模型的多标签分类算法[J];计算机学报;2010年08期
本文关键词:基于多标签学习的社交网络用户人格预测方法研究,,由笔耕文化传播整理发布。
本文编号:302368
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/302368.html