面向社会化媒体用户评论行为的属性推断
本文关键词:面向社会化媒体用户评论行为的属性推断 出处:《山东大学》2017年硕士论文 论文类型:学位论文
更多相关文章: 社会化媒体 属性推断 语义分析 用户行为 概率特征选择
【摘要】:社会化媒体平台是指为用户提供评论、投票、反馈、分享等功能的在线媒体,像凤凰网等新闻网站、亚马逊和淘宝等电商网站、豆瓣等电影评论网站。用户网络评论是社会舆论的一种表现形式,具有公开性和可用性特点,群体意见为其他用户在决定购买产品或使用服务的时候提供了参考。理解用户评论行为进行属性推断,可以帮助企业、机构、政府等提高服务质量,用于个性化推荐、市场营销等,具有重要应用价值。然而社会化媒体用户多为匿名身份,其评论行为数据具有碎片化、信息价值含量低和不平衡的特点,且用户群体的属性分布严重不均衡,这些问题给用户属性推断带来挑战。针对用户评论行为数据分布不平衡、噪音和碎片化的问题,本文引入客体信息、环境信息,作为对用户评论行为数量少的补充信息,辅助用户特征建模;结合基于语义知识库的层次化语义建模方法和基于词向量模型学习词向量的文本挖掘方法深度挖掘用户评论,分别从全局的角度和局部的角度消除词语歧义带来的不良影响,并保留评论中潜在的语义关系,从而达到深度挖掘用户评论潜在的语义特征的目的。针对建模后的用户特征维度大,碎片化数据价值含量低等问题,基于信息增益度量特征重要性,提出两种代表性概率特征筛选算法的改进策略:概率包裹式特征选择算法和启发式概率特征搜索算法,分别在分类学习前和迭代式学习过程中进行概率特征选择,既保留了重要特征信息,也给低价值特征提供小概率选择机会,筛选密切相关特征,以降低搜索空间,提高收敛速度和学习效果。针对用户属性不均衡问题,提出了面向小比例类型数据的差异性特征选择和迭代式增强学习算法,集成多个特征相关的分类器,考虑不同特征组合和分类器适用性的同时,使得集成之后的分类器注重更容易分错的小比例类型数据的学习,能够有效提高用户属性分类学习的准确率。分别使用真实的中文和英文数据集验证本文方法,包括不同的行为建模方式和特征筛选方法对属性推断的影响,以及不同参数和用户属性分布不平衡问题对属性推断的影响,并和其他方法进行了对比,实验结果表明本文方法的有效性。
[Abstract]:Social media platforms are online media that provide comments, voting, feedback, sharing and other functions to users, news sites like Phoenix New Media, e-commerce sites such as Amazon and Taobao. Douban and other movie review sites. User network review is a form of public opinion, with the characteristics of openness and usability. Group views provide reference for other users when deciding to buy products or use services. Understanding user comment behavior and attribute inference can help enterprises, institutions, governments and so on to improve the quality of service. For personalized recommendation, marketing and so on, it has important application value. However, social media users are mostly anonymous identity, its comment behavior data has the characteristics of fragmentation, low information value content and imbalance. And the distribution of user group attributes is seriously uneven, which brings challenges to user attribute inference. In view of the imbalance of user comment behavior data distribution, noise and fragmentation, this paper introduces object information. Environmental information, as the supplementary information to the user's comment behavior, helps to model the user's characteristics. Combining the hierarchical semantic modeling method based on semantic knowledge base and the text mining method based on word vector model learning word vector, deeply mining user comments. From a global perspective and a local perspective to eliminate the negative impact of word ambiguity and retain the potential semantic relationship in the commentary. In order to achieve the purpose of mining the potential semantic features of user comments in depth, aiming at the problems of large dimension of user features and low value content of fragmented data after modeling, the importance of feature is measured based on information gain. This paper proposes two improved strategies of representative probability feature selection algorithm: probabilistic parcels feature selection algorithm and heuristic probabilistic feature search algorithm. Probabilistic feature selection is carried out before and during iterative learning, which not only preserves important feature information, but also provides small probability selection opportunities for low-value features and screening closely related features. In order to reduce the search space, improve the convergence speed and learning effect. Aiming at the problem of user attribute imbalance, this paper proposes a new feature selection and iterative reinforcement learning algorithm for small scale data. By integrating multiple feature related classifiers and considering the applicability of different feature combinations and classifiers, the ensemble classifiers focus on the learning of small scale data that are more easily error-separated. It can effectively improve the accuracy of user attribute classification learning. The real Chinese and English datasets are used to verify the effects of different behavioral modeling methods and feature filtering methods on attribute inference. The effect of different parameters and the imbalance of user attribute distribution on attribute inference is also discussed and compared with other methods. The experimental results show that the proposed method is effective.
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 张雪超;;社会化媒体的营销潜能[J];互联网天地;2010年06期
2 宋安;;不要对社会化媒体危机望而却步[J];广告大观(综合版);2011年03期
3 吴剑敏;;社会化媒体在政府中的应用[J];企业导报;2011年08期
4 赵苑君;;社会化媒体的品牌营销[J];信息通信;2011年03期
5 肖瑞;;浅谈社会化媒体的作用[J];教育理论与实践;2011年30期
6 付玉辉;;社会化媒体:未来的确定性和不确定性[J];互联网天地;2011年09期
7 邓煜;唐大麟;于梦;;社会化媒体时代的品牌营销之道[J];现代营销(学苑版);2011年11期
8 ;探寻社会化媒体的价值[J];广告大观(综合版);2012年01期
9 王莉莉;;社会化媒体:广告主的双刃剑[J];广告大观(综合版);2012年01期
10 陈东;;社会化媒体孵化“微博营销公司”?[J];广告大观(综合版);2012年01期
相关会议论文 前6条
1 王岚;;利用社会化媒体进行新媒体内容传播[A];中国新闻技术工作者联合会2013年学术年会、五届五次理事会暨第六届“王选新闻科学技术奖”和优秀论文奖颁奖大会论文集(广电篇)[C];2013年
2 吕天鹤;;论社会化媒体对科层制的冲击——以微博为例[A];“传播与中国·复旦论坛”(2013)——网络化关系:新传播与当下中国论文集[C];2013年
3 李艳丽;;社会化媒体在体育产业中的应用现状与发展策略研究[A];2013体育计算机应用论文集[C];2013年
4 华迎;王永贵;李兵;;社会化媒体中用户创造内容(UGC)采纳行为影响因素研究[A];2013中国信息经济学会学术年会暨博士生论坛论文集[C];2013年
5 刘涛;杨有庆;;社会化媒体与都市空间的社会化表征[A];“传播与中国·复旦论坛”(2012)——可沟通城市:理论建构与中国实践论文集[C];2012年
6 信莉丽;庄严;;美联社微博新闻本土化研究[A];2014中国传播论坛:“国际话语体系与国际传播能力建设”研讨会会议论文集[C];2014年
相关重要报纸文章 前10条
1 本报记者 胡海波 编译;社会化媒体:危机公关的利器[N];中国民航报;2011年
2 杨吉;社会化媒体对企业意味着什么[N];上海证券报;2013年
3 杨吉;社会化媒体对企业意味着什么[N];中华读书报;2013年
4 杨吉 法学博士 浙江传媒学院互联网与社会研究中心秘书长;社会化媒体企业意味着什么[N];中国图书商报;2013年
5 本报记者 周婷;社会化媒体掀起营销浪潮[N];中国证券报;2010年
6 祝华新;社会化媒体:社会管理新挑战[N];人民政协报;2011年
7 本报记者 李延生;借力社会化媒体[N];中国企业报;2011年
8 记者 李思;社会化媒体“遍地开花”[N];上海金融报;2011年
9 任沁沁 胡雅婷;梦想成真,社会化媒体正在融入生活[N];新华每日电讯;2012年
10 上海社科院信息研究所知识管理研究中心主任、副研究员 王兴全;“数字化野火”:风险与治理[N];文汇报;2013年
相关博士学位论文 前10条
1 赵宇翔;社会化媒体中用户生成内容的动因与激励设计研究[D];南京大学;2011年
2 丁方舟;中国网络行动的动因、过程与影响[D];浙江大学;2015年
3 姚远;面向社会化媒体的用户生成内容推荐技术研究[D];南京大学;2015年
4 朱文龙;社会化媒体调查的适用性与模式效果研究[D];电子科技大学;2014年
5 刘欣;面向社会化媒体的内容推荐若干关键技术研究[D];北京邮电大学;2015年
6 瞿旭晟;互联网平台上的知识生产[D];复旦大学;2010年
7 阴红志;社会化媒体中若干时空相关的推荐问题研究[D];北京大学;2014年
8 潘p,
本文编号:1411769
本文链接:https://www.wllwen.com/guanlilunwen/yingxiaoguanlilunwen/1411769.html