基于社交网络数据的信用评价数据清洗算法及快速实现
发布时间:2022-07-13 17:06
随着互联网金融的快速发展,其作为传统金融业的有益补充,为低收入和中等收入群体提供了相对有效的金融服务。但由于缺乏信用评价方法,信用风险仍然是互联网金融业的主要风险来源。对自然人信用模型的构建及信用评价是降低信用风险的有效手段。随着在线社交工具的广泛使用,越来越多的人类个体行为被忠实地记录下来,形成了庞大的社交网络数据库。这些数据记录的是真实的人类活动,是对现实人群社交的部分映射,使得社交网络数据用来衡量用户的信用水平变得可能。本文我们主要进行了两方面的研究工作。首先在社交数据作为个人信用评价模型的补充数据的研究当中,网络中往往存在着社交足迹不足或无法代表普通真实用户的异常节点,这些节点的存在影响着信用评价的排序结果。因此我们根据用户的度分布,活跃度以及用户行为时间间隔来建立一套用于社交数据个人信用评价的数据清洗模型,并对清洗前后的数据集进行信用评价排序,观察清洗模型对结果产生的影响。其次我们对整个清洗模型进行了用例测试,找出整个清洗环节中最为耗时的部分并对其进行并行加速。在本文的第一章中我们对当前社交数据用于个人信用评价的研究背景及现状进行了介绍,并引出其中仍存在的问题以及我们要展开的...
【文章页数】:56 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
1 绪论
1.1 研究背景
1.2 国内外研究现状
1.3 研究内容
1.4 研究创新点
2 相关理论及算法
2.1 社交网络的基本概念
2.1.1 描述社交网络的基本量
2.1.2 社交网络中的幂律特性
2.2 基于社交数据的信用评价模型
2.2.1 基于神经网络的个人信用评价模型
2.2.2 基于逻辑回归的个人信用评价模型
2.3 并行加速方法
2.4 基于python的爬虫相关技术
2.4.1 Anconada开发环境及工具包
2.4.2 scrapy分布式爬虫架构
2.5 拟合分布的ks检验
3 社交网络数据获取与描述
3.1 数据抽样方法
3.2 数据获取
3.3 数据获取过程中的难点解决方案
3.4 数据收敛性验证
3.5 数据描述
3.6 本章小结
4 用于信用评价的社交网络数据清洗规则及测试
4.1 清洗模型的建立
4.1.1 明星用户与水军用户的清洗规则
4.1.2 活跃度异常用户清洗规则
4.1.3 机械用户清洗规则
4.2 个人信用评价实验结果及分析
4.3 本章小结
5 清洗模型中参数的快速计算方法研究
5.1 基于python的加速方法
5.1.1 numba静态编译技术
5.1.2 multiprocessing进程并行模块
5.2 计算耗时分析
5.3 计算时耗的并行加速处理
5.3.1 度分布的加速计算
5.3.2 活跃度的加速计算
5.3.3 时间间隔的加速计算
5.4 本章小结
6 结论与展望
参考文献
致谢
【参考文献】:
期刊论文
[1]在线用户追评行为时间序列关联特征实证研究——以京东商城手机评论数据为例[J]. 张艳丰,彭丽徽,洪闯. 情报理论与实践. 2019(03)
[2]社交网络水军用户的动态行为分析及在线检测[J]. 李岩,邓胜春,林剑. 计算机工程. 2019(08)
[3]社交网络异常用户识别技术综述[J]. 仲丽君,杨文忠,袁婷婷,向进勇. 计算机工程与应用. 2018(16)
[4]基于邻接矩阵的网络拓扑辨识算法[J]. 郭帅文,燕跃豪,蒋建东,马梦茹,鲍薇. 电力系统保护与控制. 2018(12)
[5]Logistic回归算法研究与实现[J]. 滕文. 信息技术. 2018(05)
[6]幂律特性在新浪微博个性化推荐中的应用研究[J]. 罗斌,陈翔. 计算机工程与科学. 2018(04)
[7]社交网络中考虑节点度的演化博弈[J]. 刘亚州,王静,潘晓中,付伟. 计算机应用. 2018(04)
[8]大数据背景下我国互联网征信问题研究——以芝麻信用为例[J]. 余丽霞,郑洁. 金融发展研究. 2017(09)
[9]可视图复杂网络度分布拟合比较研究[J]. 张蓉,邹勇. 华东师范大学学报(自然科学版). 2017(02)
[10]基于随机抽样法的多群核数据不确定性影响分析[J]. 潘昕怿,兰兵,韩向臻,胡文超,攸国顺,王昆鹏,张春明. 强激光与粒子束. 2017(04)
博士论文
[1]人类行为动力学的实证及生成机制研究[D]. 鲍媛媛.北京邮电大学 2012
硕士论文
[1]复杂网络动力学[D]. 纪鹏.江南大学 2011
本文编号:3660430
【文章页数】:56 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
1 绪论
1.1 研究背景
1.2 国内外研究现状
1.3 研究内容
1.4 研究创新点
2 相关理论及算法
2.1 社交网络的基本概念
2.1.1 描述社交网络的基本量
2.1.2 社交网络中的幂律特性
2.2 基于社交数据的信用评价模型
2.2.1 基于神经网络的个人信用评价模型
2.2.2 基于逻辑回归的个人信用评价模型
2.3 并行加速方法
2.4 基于python的爬虫相关技术
2.4.1 Anconada开发环境及工具包
2.4.2 scrapy分布式爬虫架构
2.5 拟合分布的ks检验
3 社交网络数据获取与描述
3.1 数据抽样方法
3.2 数据获取
3.3 数据获取过程中的难点解决方案
3.4 数据收敛性验证
3.5 数据描述
3.6 本章小结
4 用于信用评价的社交网络数据清洗规则及测试
4.1 清洗模型的建立
4.1.1 明星用户与水军用户的清洗规则
4.1.2 活跃度异常用户清洗规则
4.1.3 机械用户清洗规则
4.2 个人信用评价实验结果及分析
4.3 本章小结
5 清洗模型中参数的快速计算方法研究
5.1 基于python的加速方法
5.1.1 numba静态编译技术
5.1.2 multiprocessing进程并行模块
5.2 计算耗时分析
5.3 计算时耗的并行加速处理
5.3.1 度分布的加速计算
5.3.2 活跃度的加速计算
5.3.3 时间间隔的加速计算
5.4 本章小结
6 结论与展望
参考文献
致谢
【参考文献】:
期刊论文
[1]在线用户追评行为时间序列关联特征实证研究——以京东商城手机评论数据为例[J]. 张艳丰,彭丽徽,洪闯. 情报理论与实践. 2019(03)
[2]社交网络水军用户的动态行为分析及在线检测[J]. 李岩,邓胜春,林剑. 计算机工程. 2019(08)
[3]社交网络异常用户识别技术综述[J]. 仲丽君,杨文忠,袁婷婷,向进勇. 计算机工程与应用. 2018(16)
[4]基于邻接矩阵的网络拓扑辨识算法[J]. 郭帅文,燕跃豪,蒋建东,马梦茹,鲍薇. 电力系统保护与控制. 2018(12)
[5]Logistic回归算法研究与实现[J]. 滕文. 信息技术. 2018(05)
[6]幂律特性在新浪微博个性化推荐中的应用研究[J]. 罗斌,陈翔. 计算机工程与科学. 2018(04)
[7]社交网络中考虑节点度的演化博弈[J]. 刘亚州,王静,潘晓中,付伟. 计算机应用. 2018(04)
[8]大数据背景下我国互联网征信问题研究——以芝麻信用为例[J]. 余丽霞,郑洁. 金融发展研究. 2017(09)
[9]可视图复杂网络度分布拟合比较研究[J]. 张蓉,邹勇. 华东师范大学学报(自然科学版). 2017(02)
[10]基于随机抽样法的多群核数据不确定性影响分析[J]. 潘昕怿,兰兵,韩向臻,胡文超,攸国顺,王昆鹏,张春明. 强激光与粒子束. 2017(04)
博士论文
[1]人类行为动力学的实证及生成机制研究[D]. 鲍媛媛.北京邮电大学 2012
硕士论文
[1]复杂网络动力学[D]. 纪鹏.江南大学 2011
本文编号:3660430
本文链接:https://www.wllwen.com/jingjilunwen/huobiyinxinglunwen/3660430.html