当前位置:主页 > 科技论文 > 自动化论文 >

社交网络平台用户身份挖掘的研究

发布时间:2020-10-26 10:47
   社交网络平台(例如新浪微博、Facebook等)用户身份挖掘是数据挖掘领域的新兴研究内容,本文针对其中两个重要问题,即用户身份标注和跨平台用户身份匹配开展研究,主要取得以下创新成果:1.提出能适应用户标记数变化的单标记用户身份标注算法。以往用户身份标注算法通常假设标记数不变,如果出现训练数据中未见过的标记,模型准确性将会受到影响。本文在单标记假设下,根据应用对准确性和高效性的不同要求,分别提出能适应用户标记数变化的算法SENCForest和SENC-MaS。真实数据上的实验测试验证了本文算法的有效性。2.提出能适应用户标记数变化的多标记用户身份标注算法。以往多标记用户身份标注算法在标记数变化的场景中,模型准确性将会受到影响。本文提出基于用户全局特征和局部特征的用户身份标注算法NL-Forest,不仅可以标注已知标记,还能够在多标记场景中检测出新出现的标记,并且对模型更新。真实数据上的实验测试验证了本文算法的有效性。3.提出能适应用户数变化的跨平台用户身份匹配算法。以往用户身份匹配算法通常基于静态用户数据建模,然而现实任务中用户数通常会发生变化。本文提出一种新的用户身份匹配框架,即基于用户隐空间的框架,并提出算法ULink-On,能随着用户数变化不断更新隐空间模型,最终在隐空间中匹配用户身份。真实数据上的实验测试验证了本文算法的有效性。4.提出能适应用户生成内容变化的跨平台用户身份匹配算法。以往跨平台用户匹配算法,通常假定用户生成内容不发生变化。然而现实任务中用户生成内容是经常变化的。本文提出一种适应用户生成内容变化的跨平台用户身份匹配算法AD-Link,通过学习带权重的匹配模型更好地量化生成内容间的重要性。真实数据上的实验测试验证了本文算法的有效性。5.提出能适应用户描述变化的跨平台用户身份匹配算法。以往用户身份匹配算法通常假设用户描述是不可变的,然而现实任务中用户描述会随着社交平台功能的发展而变化。本文提出一种适应用户描述变化的跨平台用户身份匹配算法AD-Link-f,通过建立已有描述和新描述间的联系使模型更快地适应新环境。真实数据上的实验测试验证了本文算法的有效性。
【学位单位】:南京大学
【学位级别】:博士
【学位年份】:2018
【中图分类】:TP181
【部分图文】:

示意图,子区域


更接近正常数据。“较远”的异常子区域中的??数据应该远离正常区域和异常子区域。如果测试数据属于“较远”的异常子区??域,则认为该数据很大概率属于新类,图2.2给出了示意图。异常检测器构建正??常和异常区域,异常区域被进一步分成两个子区域。异常子区域以外的区域是??“较远”的异常子区域。??在SENC问题中,如果将分类问题与检测问题分离,那么分类问题可以采??用很多传统的分类器解决。然而,为了模型在数据流上能够高效的工作,本节??提出了一种集成方法,采用完全随机树作为基模型,检测和分类任务建立在一??个共同核心框架下。而且以往的研究[35,?84]也表明,集成的完全随机树[152]??能够作为一个有效的分类器。在一个框架下,更加易于模型更新。在以下将给??出本文使用的一些重要概念。??定义2.2样本分数.?测试样本x输入模型/时,模型将输出一个分数,这个分??数说明x属于新类还是已知类别。??定义2.3已知类区域和异常区域.?基于模型对样本产生的分数

示意图,异常区域,示例,模型


;?:???????-J??图2.2构造“较远”的异常子区域。??更接近正常数据。“较远”的异常子区域中的??数据应该远离正常区域和异常子区域。如果测试数据属于“较远”的异常子区??域,则认为该数据很大概率属于新类,图2.2给出了示意图。异常检测器构建正??常和异常区域,异常区域被进一步分成两个子区域。异常子区域以外的区域是??“较远”的异常子区域。??在SENC问题中,如果将分类问题与检测问题分离,那么分类问题可以采??用很多传统的分类器解决。然而,为了模型在数据流上能够高效的工作,本节??提出了一种集成方法,采用完全随机树作为基模型,检测和分类任务建立在一??个共同核心框架下。而且以往的研究[35,?84]也表明,集成的完全随机树[152]??能够作为一个有效的分类器。在一个框架下,更加易于模型更新。在以下将给??出本文使用的一些重要概念。??定义2.2样本分数.?测试样本x输入模型/时

曲线,阈值确定,路径长度,横坐标


?(2.1)??T??Z/和Z/分别为路径长度较短和较长的路径长度列表。图2.4说明阈值选择的一??个示例,假设iTree产生一个列表L,曲线SD.bKt/)-〇"(广)1),切,的最??小值点可以将列表L分为两个部分:异常区域和正常区域。最终最小值点将作??为阈值f。注意,阈值f将自动确定,不会引入其它参数。??构建“较远”的异常子区域。在完成了构建异常区域A后,SENCForest??将继续构建“较远”的异常子区域。在阈值f确定以后,可以在每个树的异常??区域A中构建一个球型的区域S。当球型的区域5完成构建后,SENCForest??己经准备好检测新类。当样本落在B以外时,这个样本将被认为是新类。??从检测器中构建一个分类器。这个功能只要记录每个节点中的类别分布??情况F[/],可以理解为记录类别数目,类别种类等。一旦在完成上述步骤??后
【相似文献】

相关期刊论文 前10条

1 王杰;跨企业网络环境下的用户身份管理[J];信息网络安全;2005年09期

2 王杰;企业信息安全中的用户身份管理[J];信息网络安全;2004年07期

3 王刚;刘海玲;;实施统一用户身份管理系统建设 做好数字油田建设基础工作[J];科技创新与应用;2012年28期

4 王磊;郑任儿;;浅谈校园用户身份管理系统设计与应用[J];科技信息;2012年26期

5 迟文德;;云计算环境中用户身份认证及访问控制的探索与实践[J];中国传媒科技;2016年05期

6 王亮;;网络安全用户身份优化认证仿真研究[J];计算机仿真;2016年10期

7 房超;蔡忠闽;沈超;牛非;管晓宏;;基于鼠标动力学模型的用户身份认证与监控[J];西安交通大学学报;2008年10期

8 ;牛津大学研发新技术:通过击键方式验证用户身份[J];保密科学技术;2014年09期

9 那罡;徐健淞;;迷失的用户身份[J];中国计算机用户;2007年03期

10 史扬,曹立明;基于击键特征的用户身份校验[J];计算机工程;2005年06期


相关博士学位论文 前2条

1 慕鑫;社交网络平台用户身份挖掘的研究[D];南京大学;2018年

2 徐钦桂;虚拟仪器网络化测控系统可信分析及增强方法研究[D];华南理工大学;2012年


相关硕士学位论文 前10条

1 董学雄;基于击键特征的用户身份识别算法研究[D];兰州理工大学;2018年

2 叶濛;面向移动云计算平台的用户身份管理系统研究[D];浙江大学;2017年

3 陈茂隆;云计算平台下用户身份管理系统的设计与开发[D];天津大学;2012年

4 肖亮;基于ASP.NET的网络用户身份认证研究[D];昆明理工大学;2004年

5 张晓芳;基于网格的用户身份管理系统研究[D];华北电力大学;2012年

6 李思琦;社交网络间用户身份识别算法研究[D];大连理工大学;2017年

7 毕开圆;社会网络中用户身份隐私保护模型的研究[D];大连海事大学;2015年

8 范宽;基于网络数据流的用户身份近似关联[D];南京邮电大学;2013年

9 金明星;基于802.1X的园区网络用户身份认证的研究[D];北京林业大学;2005年

10 吴梦溪;基于输入特征的用户身份认证的研究[D];华南理工大学;2017年



本文编号:2856894

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2856894.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户32fde***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com