基于社交大数据的用户信用画像方法研究

发布时间:2018-08-08 11:42
【摘要】:近年来,移动互联网和社交媒体异军突起,逐步取代了传统的博客、BBS论坛,成为人们进行社交、学习、娱乐的主要平台。与此同时,伴随着整个社会对于互联网、特别是移动互联网的广泛接受,被连接的用户数以及用户产生数据(UGC),呈现出爆发式增长。较之前的互联网媒体技术(诸如邮件、论坛、博客),社交媒体记录的数据类型更加丰富、及时,时效性更强。特别的,微博类型的社交媒体数据,成为了信息发布、用户间互动、事件发现扩散的公众平台。作为一种允许公开访问、内容简短、近乎实时、海量规模的典型大数据,微博等社交媒体数据获得了学术界以及工业界研究者的广泛关注。为了充分利用这一数据源,学术界在社交网络理论、用户行为模式、公共事件发展规律、谣言发现检测方法的等方面开展了广泛的研究。总体而言,社交媒体大数据中蕴含的宝贵信息、知识需要新颖的数据处理、分析方法来解决。但是,社交媒体大数据的长度短、质量差、变化迅速、相关性弱这些问题也形成了新的挑战和问题,使得传统的数据挖掘方法无能为力。为了应对社交媒体大数据中"序列性"、"行为性"、"多源性"等挑战,更好的实现基于社交数据的用户信用画像这一目标,本文进行了微博类型数据的高效序列挖掘算法、基于微博用户隐行为模式的用户信用画像、基于特征设计和集成学习融合多源信息的用户信用画像三个方面的研究。除此之外,在微博数据下用户信用画像算法的研究过程中,对于社交大数据上用户画像算法、技术做出研究归纳和展望。具体而言,本论文的主要研究内容、创新点和学术贡献包括以下三方面:1)微博数据是以时间线(Timeline)的形式呈现给用户,本质上是一种事件类型的序列数据。事件序列数据挖掘除了考虑项目(item)出现频率外,也开始考虑项目的效用(utility),进而实现高效用事件片段挖掘。针对单条事件序列的高效用挖掘,本文提出了对现有高效用片段(high utility episode)挖掘算法的多重优化策略,使得算法运行速度和内存效率都得到大规模的提升。更重要的一点,本文引入的词法序前缀树挖掘框架具有更紧的剪枝阈值估计,使得针对事件序列的高效用事件片段挖掘算法变得快速而实用(第三章)。2)微博数据中每一条微博,包含了限定长度的用户产生文本内容,也包含了与用户行为相关的上下文信息。文本和行为两种数据源可以同时为用户信用建模提供数据支持,但是简单特征抽取然后组合的做法,难以发现用户文本和行为数据之间的紧相关性。为了实现基于行为模式的用户信用画像,本文通过概率图模型的建模方法,将可观察的用户文本和多种行为特征融合,从而获取为信用预测提供输入的用户隐行为模式。本文设计的概率主题模型LUBD-CM,假设一条微博由同一个主题产生,并且微博上行为数据和文本数据都受所分配主题约束。实验结果表明,LUBD-CM这一模型相对LUBD-CM的简化变种,传统的LDA,朴素Bayes算法,对于用户信用标签的预测性能都有大幅提升(第四章)。3)社交平台上的用户数据,除了用户产生内容,也包括用户个人信息、社交网络关系。不同来源的用户社交数据,蕴含了不同类型的与用户信用相关的信息。但是,微博社交数据的"即时性"导致数据质量一般很低,难以作为标准分类器如SVM、决策树的输入并获得较高的用户标签预测性能。为了融合多源异构社交数据中信用画像有效信息,本文从个人信用相关的领域知识入手,广泛分析多种可能的特征设计方案,从中选择较好的社交特征,并且利用双层集成学习框架,全面挖掘隐含在多种社交特征中的有效信息,从而实现综合堆栈方法、提升方法和集成方法的用户信用画像预测系统(第五章)。值得一提的是,本文提出的针对微博社交数据的系列数据挖掘、用户画像方法,对于用户产生的其他类型社交大数据(如Facebook数据,微信数据),很大程度上也是适用的。本文虽然重点研究了用户信用属性的预测和画像,所提出新方法、新技术对于其他类型个人标签(如年龄、性别、婚否)的预测,也都是适用的。
[Abstract]:In recent years, mobile Internet and social media have sprung up, gradually replacing traditional blogs, BBS forums, as the main platform for people to socialize, learn, and entertain. At the same time, with the wide acceptance of the whole society, especially the mobile Internet, the number of connected users and the user generated data (UGC). Explosive growth. Compared with previous Internet media technologies (such as mail, forums, blogs), social media records are more rich in data, timely and more timeliness. In particular, micro-blog type social media data has become a public platform for information release, interuser interaction, and event discovery diffusion. In order to make full use of this data source, the academic community has carried out a wide range of social network theory, user behavior patterns, public event development rules, and rumor discovery detection methods, in order to make full use of this data source. In general, the valuable information contained in the large data of social media requires new data processing and analytical methods to solve them. However, new challenges and problems have been formed by the short length, poor quality, rapid change and weak correlation of the social media data, which makes the traditional data mining methods incapable. In response to the challenges of "sequence", "behavioural" and "multi source" in social media data, the goal of a user credit portrait based on social data is better implemented. This paper carries out an efficient sequence mining algorithm for micro-blog type data, based on the user's credit portrait of the implicit behavior model of micro-blog users, based on feature design and integrated learning fusion. Research on three aspects of user credit portrait of multi source information. In addition, in the research process of user credit image algorithm under micro-blog data, this paper makes a summary and prospect for the user portrait algorithm on social large data. In particular, the main research content, innovation and academic contributions of this paper include the following three aspects: 1) Micro-blog data is presented to the user in the form of time line (Timeline), which is essentially an event type sequence data. Event sequence data mining, in addition to considering the frequency of the project (item), also starts to consider the utility of the project (utility), and then implements efficient fragment mining. This paper proposes a multiple optimization strategy for the existing high utility episode mining algorithm, which makes the algorithm running speed and memory efficiency improved on a large scale. More important, the word sequence prefix tree mining framework introduced in this paper has a tighter pruning threshold value estimation, which makes the event sequence efficient use of events. Fragment mining algorithm becomes fast and practical (third chapter).2) every micro-blog in micro-blog data contains text content and context information related to user behavior. Text and behavior two data sources can provide data support for user's credit model at the same time, but simple feature extraction is then used. In order to realize the user's credit picture based on the behavior pattern, this paper, through the modeling method of the probability graph model, combines the observable user text with a variety of behavior features to obtain the user's implicit behavior pattern which provides input for the prediction of the letter. The probabilistic theme model, LUBD-CM, is designed to assume that a micro-blog is generated by the same topic and that both the behavior data and the text data on micro-blog are constrained by the assigned topic. The experimental results show that the LUBD-CM model is a simplified variant of the LUBD-CM, the traditional LDA, and the simple Bayes algorithm, for the prediction performance of the user credit label. Promotion (fourth chapter).3) user data on social platform, except user generated content, including user personal information, social network relationship. Different sources of user social data contain different types of information related to user credit. However, the "immediacy" of micro-blog social data causes the data quality to be generally very low and difficult to be used as a standard. Quasi classifier such as SVM, the input of the decision tree and the higher user tag prediction performance. In order to fuse the effective information of the credit picture in the multi-source heterogeneous social data, this paper, starting with the personal credit related domain knowledge, analyzes a wide variety of possible feature design schemes to select better social features and use the double layer integration. Learning framework, fully mining the effective information hidden in a variety of social characteristics, so as to realize the comprehensive stack method, the promotion method and the integration method user credit picture prediction system (fifth chapter). It is worth mentioning that the series data mining for micro-blog social data, the user portrait method and the user generated by this paper His type of social data (such as Facebook data, WeChat data) is largely applicable. Although this paper focuses on the prediction and portrait of the user's credit attributes, the new method is also applicable to other types of personal tags such as age, sex, or marital status.
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 灵子;信用消费悄然兴起[J];信息经济与技术;1994年12期

2 高静霞,何英华;浅析信用及其对企业的影响[J];科技情报开发与经济;2002年06期

3 肖胜;柯晓燕;徐静;全波;冯炳麟;;开放信用消费 实现差异化服务[J];通信企业管理;2013年06期

4 韩伟;;小议信用档案的建立[J];机电兵船档案;2003年01期

5 ;信用你用了吗?[J];数字生活;2001年03期

6 陈正月,张建忠;信用档案悄然叩开百姓门[J];湖北档案;2000年09期

7 任珑;陈小筑;曹文炼;张子红;;加速培育信用信息服务市场[J];中国信息界;2004年07期

8 ;新闻·时事追踪[J];上海微型计算机;1999年42期

9 王雪玉;;银行系电商崛起[J];金融科技时代;2014年06期

10 ;[J];;年期

相关重要报纸文章 前10条

1 大林;信用消费呼唤诚信[N];健康报;2006年

2 商务部市场秩序司司长 向欣;支持信用消费发展 推动消费模式转变[N];国际商报;2009年

3 谭浩俊;信用消费基础建设应提速[N];经济参考报;2012年

4 孙韶华;促消费新政出台 信用消费或受支持[N];中国贸易报;2012年

5 记者 孙韶华;信用消费有望获政策“红包”[N];经济参考报;2012年

6 江德斌;鼓励信用消费 “债务奴隶”会不会更多[N];中国商报;2012年

7 孙韶华;信用消费有望获鼓励[N];联合日报;2012年

8 本报记者 吴力;不要对信用消费盲目叫好[N];国际商报;2013年

9 记者 张慧敏;“三零”信用消费模式促消费效果明显[N];北京商报;2013年

10 胡慧平;“债百万”敲响信用消费警钟[N];大众科技报;2003年

相关博士学位论文 前5条

1 郭光明;基于社交大数据的用户信用画像方法研究[D];中国科学技术大学;2017年

2 陈忠;信用消费论[D];中国社会科学院研究生院;2002年

3 叶建亮;交易扩展中的信用[D];浙江大学;2004年

4 叶建亮;交易扩展中的信用——一个制度与组织的视角[D];浙江大学;2004年

5 叶圣利;中国诚信经济思想研究[D];复旦大学;2004年

相关硕士学位论文 前10条

1 黄羽茜;美国信用消费保护法律体系的历史发展及其对我国的借鉴意义[D];中国政法大学;2007年

2 曲豪;我国信用消费的伦理研究[D];河北大学;2015年

3 许勇;基于流动性风险和信用风险的M商业银行违约风险研究[D];南京理工大学;2015年

4 张萍;渭南市信用消费发展研究[D];西北农林科技大学;2015年

5 宋昊泽;信用评级变动与盈余管理的相关性研究[D];东北财经大学;2015年

6 高彩凤;信用消费中消费者权益保护法律问题探讨[D];江西财经大学;2015年

7 黄敏;蒙古族大学生信用消费问题研究[D];内蒙古师范大学;2016年

8 王漪鸥;个人信用消费贷款法律制度研究[D];首都经济贸易大学;2011年

9 王国栋;我国信用消费伦理研究[D];山西财经大学;2012年

10 苗炎;信用的建立与维护——一个法律社会学的分析[D];吉林大学;2004年



本文编号:2171683

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/2171683.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f5107***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com