面向暗网的用户画像构建技术研究与应用
发布时间:2022-12-07 02:45
近年来,为防止匿名用户在网络中进行散布不实信息,损害他人名誉或煽动恐慌情绪等网络犯罪行为,保护和引导健康的网络环境,网络安全法新增了网络用户实名制的规定。然而暗网目前仍然处于国家网络安全监管的盲区,大量不法分子利用暗网穿上“隐身衣”,进行各类非法行为。因此在“看不见摸不着”的暗网中挖掘用户信息,构建出暗网用户画像对暗网监管具有重要意义。目前针对用户画像的研究大都只面向表层网络的用户,但在匿名、隐蔽、结构性弱的暗网中,用户画像的相关研究极少,构建出较为丰富用户画像更具有一定困难。本文将面向暗网,针对如何获取用户数据,通过稀疏的信息构建出暗网用户画像这一问题进行研究并加以应用。本文搭建了基于Tor的暗网采集系统,获取用户在暗网中留下的用户信息、交易记录、社交言论等数据,通过部分暗网用户标识对用户数据进行关联扩充。将数据清洗后,在中英两种语言的暗网用户数据集上提取用户特征。对结构化数据进行解析,针对非结构化数据建立暗网关键词词库,结合命名实体识别、实体关系抽取等自然语言处理算法,得到由基本信息,社交行为,市场交易三个维度的用户基础属性构成用户的基础画像。为进一步挖掘用户属性,改善暗网用户属性...
【文章页数】:66 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 课题背景与研究意义
1.1.1 课题来源
1.1.2 课题的研究背景与意义
1.2 国内外相关研究现状
1.2.1 暗网威胁数据获取研究现状
1.2.2 人物信息抽取研究现状
1.3 本文主要研究内容
1.4 本文组织结构安排
第2章 暗网用户数据采集与数据集构建
2.1 暗网数据来源
2.2 暗网数据大规模采集
2.2.1 Tor网络层
2.2.2 任务采集层
2.2.3 数据存储层
2.3 暗网数据预处理
2.4 数据匿名化处理
2.5 暗网数据统计分析
2.6 本章小结
第3章 暗网用户多维度基础画像构建
3.1 基础属性与特征提取
3.2 相关实体识别
3.2.1 中文命名实体识别
3.2.2 英文实体识别
3.2.3 建立暗网语料库
3.2.4 自定义规则
3.2.5 实验结果与分析
3.3 实体关系抽取
3.3.1 中文实体关系抽取
3.3.2 英文实体关系抽取
3.3.3 实验结果与分析
3.4 暗网用户基础画像
3.5 本章小结
第4章 基于文本挖掘的暗网用户深度画像构建
4.1 活跃度计算
4.1.1 活跃度算法
4.1.2 暗网用户活跃度分析
4.2 影响力计算
4.2.1 影响力算法
4.2.2 暗网用户影响力分布
4.3 言论情感分析
4.3.1 中文情感分析
4.3.2 英文情感分析
4.3.3 自定义情感值库
4.3.4 暗网用户情感极性分布
4.4 观点立场倾向分析
4.4.1 特征提取
4.4.2 分类判断
4.4.3 自定义关键词库
4.5 交易规模分析与预测
4.5.1 交易规模分析
4.5.2 交易量预测
4.6 暗网用户深度画像
4.7 本章小结
第5章 基于暗网用户画像的虚拟群体发现应用
5.1 用户画像相似度计算
5.2 用户虚拟群体聚类
5.3 本章小结
结论
参考文献
致谢
【参考文献】:
期刊论文
[1]一种基于暗网的威胁情报主动获取框架[J]. 黄莉峥,刘嘉勇,郑荣锋,李孟铭. 信息安全研究. 2020(02)
[2]基于FTRL和XGBoost组合算法的电商销量预测系统[J]. 钟小勇. 信息记录材料. 2020(01)
[3]基于规则的人物信息抽取算法的研究[J]. 乔磊,李存华,仲兆满,王俊,刘冬冬. 南京师大学报(自然科学版). 2012(04)
[4]竞争情报搜集与利用中的信息资产[J]. 王知津,范淑杰,王丽娜. 图书馆学研究. 2011(07)
[5]基于语义上下文分析的因特网人物信息挖掘[J]. 刘金红,陆余良,施凡,宋舜宏. 安徽大学学报(自然科学版). 2009(04)
[6]基于种子自扩展的命名实体关系抽取方法[J]. 何婷婷,徐超,李晶,赵君喆. 计算机工程. 2006(21)
[7]基于双层级联文本分类的简历信息抽取[J]. 于琨,管刚,周明,王煦法,蔡庆生. 中文信息学报. 2006(01)
[8]可靠洋葱路由方案的设计与实现[J]. 赵福祥,王育民,王常杰. 计算机学报. 2001(05)
硕士论文
[1]第二代洋葱路由匿名系统Tor的性能改进研究[D]. 王有文.北京邮电大学 2017
[2]基于文本的人物画像挖掘技术的研究与应用[D]. 李赵洁.电子科技大学 2016
[3]Tor匿名通信系统路由技术研究[D]. 韩越.北京邮电大学 2016
[4]面向突发事件案例库的事件抽取模型构建研究[D]. 王文龙.南京大学 2015
[5]基于规则的百科人物属性抽取算法的研究[D]. 李红亮.西南交通大学 2013
[6]暗网资源挖掘的关键技术研究[D]. 张永超.西安电子科技大学 2013
[7]基于网页完整理解的人物信息抽取[D]. 郝冬生.吉林大学 2012
[8]异构信息源的领域人物信息抽取研究[D]. 周婷.哈尔滨工业大学 2010
[9]大规模真实文本中的人物职衔信息提取研究[D]. 任宁.北京语言大学 2008
本文编号:3712092
【文章页数】:66 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 课题背景与研究意义
1.1.1 课题来源
1.1.2 课题的研究背景与意义
1.2 国内外相关研究现状
1.2.1 暗网威胁数据获取研究现状
1.2.2 人物信息抽取研究现状
1.3 本文主要研究内容
1.4 本文组织结构安排
第2章 暗网用户数据采集与数据集构建
2.1 暗网数据来源
2.2 暗网数据大规模采集
2.2.1 Tor网络层
2.2.2 任务采集层
2.2.3 数据存储层
2.3 暗网数据预处理
2.4 数据匿名化处理
2.5 暗网数据统计分析
2.6 本章小结
第3章 暗网用户多维度基础画像构建
3.1 基础属性与特征提取
3.2 相关实体识别
3.2.1 中文命名实体识别
3.2.2 英文实体识别
3.2.3 建立暗网语料库
3.2.4 自定义规则
3.2.5 实验结果与分析
3.3 实体关系抽取
3.3.1 中文实体关系抽取
3.3.2 英文实体关系抽取
3.3.3 实验结果与分析
3.4 暗网用户基础画像
3.5 本章小结
第4章 基于文本挖掘的暗网用户深度画像构建
4.1 活跃度计算
4.1.1 活跃度算法
4.1.2 暗网用户活跃度分析
4.2 影响力计算
4.2.1 影响力算法
4.2.2 暗网用户影响力分布
4.3 言论情感分析
4.3.1 中文情感分析
4.3.2 英文情感分析
4.3.3 自定义情感值库
4.3.4 暗网用户情感极性分布
4.4 观点立场倾向分析
4.4.1 特征提取
4.4.2 分类判断
4.4.3 自定义关键词库
4.5 交易规模分析与预测
4.5.1 交易规模分析
4.5.2 交易量预测
4.6 暗网用户深度画像
4.7 本章小结
第5章 基于暗网用户画像的虚拟群体发现应用
5.1 用户画像相似度计算
5.2 用户虚拟群体聚类
5.3 本章小结
结论
参考文献
致谢
【参考文献】:
期刊论文
[1]一种基于暗网的威胁情报主动获取框架[J]. 黄莉峥,刘嘉勇,郑荣锋,李孟铭. 信息安全研究. 2020(02)
[2]基于FTRL和XGBoost组合算法的电商销量预测系统[J]. 钟小勇. 信息记录材料. 2020(01)
[3]基于规则的人物信息抽取算法的研究[J]. 乔磊,李存华,仲兆满,王俊,刘冬冬. 南京师大学报(自然科学版). 2012(04)
[4]竞争情报搜集与利用中的信息资产[J]. 王知津,范淑杰,王丽娜. 图书馆学研究. 2011(07)
[5]基于语义上下文分析的因特网人物信息挖掘[J]. 刘金红,陆余良,施凡,宋舜宏. 安徽大学学报(自然科学版). 2009(04)
[6]基于种子自扩展的命名实体关系抽取方法[J]. 何婷婷,徐超,李晶,赵君喆. 计算机工程. 2006(21)
[7]基于双层级联文本分类的简历信息抽取[J]. 于琨,管刚,周明,王煦法,蔡庆生. 中文信息学报. 2006(01)
[8]可靠洋葱路由方案的设计与实现[J]. 赵福祥,王育民,王常杰. 计算机学报. 2001(05)
硕士论文
[1]第二代洋葱路由匿名系统Tor的性能改进研究[D]. 王有文.北京邮电大学 2017
[2]基于文本的人物画像挖掘技术的研究与应用[D]. 李赵洁.电子科技大学 2016
[3]Tor匿名通信系统路由技术研究[D]. 韩越.北京邮电大学 2016
[4]面向突发事件案例库的事件抽取模型构建研究[D]. 王文龙.南京大学 2015
[5]基于规则的百科人物属性抽取算法的研究[D]. 李红亮.西南交通大学 2013
[6]暗网资源挖掘的关键技术研究[D]. 张永超.西安电子科技大学 2013
[7]基于网页完整理解的人物信息抽取[D]. 郝冬生.吉林大学 2012
[8]异构信息源的领域人物信息抽取研究[D]. 周婷.哈尔滨工业大学 2010
[9]大规模真实文本中的人物职衔信息提取研究[D]. 任宁.北京语言大学 2008
本文编号:3712092
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3712092.html
最近更新
教材专著