当前位置:主页 > 管理论文 > 统计学论文 >

手机APP虚假用户识别的统计机器学习方法研究

发布时间:2021-04-26 19:16
  随着中国网民数量的急剧增多,尤其是手机网民数量,增长速度更快,所以手机APP的开发前景尤为可观.并且手机APP中携带的移动服务已经成为人们日常生活不可或缺的一部分.相应地,企业为了推广手机APP,就会使用许多虚假用户来刷榜单排名,而真实用户变得少之又少,这就造成手机用户数据分布不平衡的问题.此外,对企业而言,就很难辨别手机APP的真实用户;对用户而言,在下载相关APP时就会受应用商店的榜单排名以及下载量的影响,很难下载到合适的APP.本文主要是通过统计机器学习方法对手机APP用户真实性进行预测分类,使得用户和企业避免造成不必要的损失.关于数据不平衡问题的处理方法一般分为两个步骤:第一步是数据划分,主要方法是过采样、欠采样等;第二步是模型方法,主要有神经网络、随机森林和支持向量机等.本文先是对各个变量进行数据可视化分析,分析各个变量与用户真实性的关系.然后是基于交叉验证和欠采样的随机森林和支持向量机建模方法进行预测用户真实性.结果表明:分类预测准确率都达到95%以上,小样本准确率也都高达85%以上.对比模型结果可以发现,基于欠采样的随机森林模型更适合本文数据,此模型的预测效果较好且模型稳... 

【文章来源】:黑龙江大学黑龙江省

【文章页数】:48 页

【学位级别】:硕士

【文章目录】:
中文摘要
Abstract
第1章 绪论
    1.1 本文研究背景及意义
    1.2 国内外研究现状
    1.3 本文的工作及结构安排
        1.3.1 本文工作
        1.3.2 本文结构安排
    1.4 本章小结
第2章 预备知识
    2.1 类别不平衡问题
        2.1.1 类别不平衡问题及解决方法
        2.1.2 不平衡数据评价准则
    2.2 随机森林
        2.2.1 决策树
        2.2.2 随机森林模型
    2.3 支持向量机
        2.3.1 支持向量
        2.3.2 核函数
    2.4 本章小结
第3章 手机APP用户数据可视化分析
    3.1 用户行为变量
    3.2 开始方式
    3.3 网页操作数
    3.4 访问时长
    3.5 本章小结
第4章 支持向量机和随机森林对用户真实性进行分类预测
    4.1 随机森林对用户真实性进行分类预测
        4.1.1 基于交叉验证的随机森林模型
        4.1.2 基于欠采样方法的随机森林模型
    4.2 支持向量机对用户真实性进行分类预测
        4.2.1 基于交叉验证的支持向量机模型
        4.2.2 基于欠采样方法的支持向量机模型
    4.3 支持向量机与随机森林预测结果比较
    4.4 本章小结
结论
参考文献
致谢


【参考文献】:
期刊论文
[1]浅谈大数据可视化[J]. 倪彬彬.  福建电脑. 2018(11)
[2]AceMap学术地图与AceKG学术知识图谱——学术数据可视化[J]. 张晔,贾雨葶,傅洛伊,王新兵.  上海交通大学学报. 2018(10)
[3]大数据时代资讯类App的发展现状、问题和改进策略——以今日头条为例[J]. 张琳,史靖钰,王心怡.  新媒体研究. 2018(18)
[4]针对不平衡数据的决策树改进方法[J]. 王伟,谢耀滨,尹青.  计算机应用. 2019(03)
[5]移动APP开发模式及用户使用影响因素研究[J]. 黄声勇.  信息与电脑(理论版). 2018(18)
[6]金融高频数据跳跃波动研究——基于大数据核函数支持向量机的方法[J]. 柳向东,李文健.  统计与信息论坛. 2018(09)
[7]基于支持向量机分类预测的上市公司债信用评级研究[J]. 徐闪赏.  金融管理研究. 2018(02)
[8]社交网络异常用户识别技术综述[J]. 仲丽君,杨文忠,袁婷婷,向进勇.  计算机工程与应用. 2018(16)
[9]不平衡数据分类研究综述[J]. 赵楠,张小芳,张利军.  计算机科学. 2018(S1)
[10]基于主动学习不平衡多分类AdaBoost算法的心脏病分类[J]. 王莉莉,付忠良,陶攀,胡鑫.  计算机应用. 2017(07)

博士论文
[1]关于非平衡数据特征问题的研究[D]. 尹留志.中国科学技术大学 2014
[2]不均衡数据分类方法的研究[D]. 曹鹏.东北大学 2014

硕士论文
[1]基于模型融合的平台虚假用户识别研究[D]. 王伟华.广东工业大学 2018
[2]不平衡数据分类方法研究[D]. 孙宽宏.西安电子科技大学 2015
[3]面向不平衡数据分类问题的核逻辑回归算法的设计与实现[D]. 王鹏.西安电子科技大学 2015
[4]C2C电子商务中虚假评价用户的识别方法研究[D]. 许敏.南京师范大学 2014
[5]基于随机森林的不平衡数据分类方法研究[D]. 肖坚.哈尔滨工业大学 2013
[6]支持向量机建模方法的研究[D]. 董钢.东北大学 2008



本文编号:3161968

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/3161968.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户08f98***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com