互联网不良信息采集抽取及识别技术研究
发布时间:2017-08-10 17:30
本文关键词:互联网不良信息采集抽取及识别技术研究
更多相关文章: 信息采集 信息抽取 不良信息识别 word2vec
【摘要】:近年来随着论坛、社区、微博等社交网络的迅猛发展,加快了网民在互联网上发布、传播信息的速度,网民可以毫无拘束的在社交网络上表述自己的政治观点、评述突发事件、监督公共事件等。这也使得网络上发布黄色、暴力、赌博甚至反动言论等不良信息时有发生,这类不良网页信息随着现代互联网的蓬勃发展呈现着蔓延之势,引起社会各界的极大关注。因此如何强化网页不良内容的识别的能力,提高舆情监测的质量和效率,成为一个技术工作者需要解决的一个重要课题。论文的研究工作依托“互联网不良信息监测管理平台”为支撑,从项目实际应用需求出发,对互联网不良信息监测管理平台、网页信息抓取和抽取以及不良信息识别的国内外研究现状及存在的问题进行了分析,设计并实现了基于论坛微博信息采集抽取以及不良信息识别方案,引入基于隐马尔科夫的词极性标注对word2vec词扩展的改进,对敏感基础词库中的特征词进行了扩充,并对方法的准确性、可行性进行了评估与验证。在论坛、微博采集与抽取的研究中,通过对论坛与微博的结构进行分析,制定出了一套针对论坛、微博的页面采集方案,可灵活的针对不同待解析的“元素”做出相应的针对性抽取,并可在可视化网页中对相应的抓取和抽取的配置进行设置。解析某个站点时,根据各个“元素”的抽取规则,解析出站点页面中各个“元素”的文本,并封装成标准化文档。实验表明,该方法可以根据制定的规则快速、便捷的抽取页面信息,且有较好的准确率及召回率。在不良信息识别的研究中,利用word2vec对敏感基础词库进行相关词扩展时,引入基于隐马尔科夫的词极性标注,筛选掉“背离词”形成特征词集,最后根据特征词的权值计算并结合SVM分类器完成对不良信息的识别工作,获得了良好的识别效果。
【关键词】:信息采集 信息抽取 不良信息识别 word2vec
【学位授予单位】:昆明理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP274.2;TP393.09;TP391.1
【目录】:
- 摘要5-6
- Abstract6-11
- 第一章 绪论11-17
- 1.1 论文的研究背景及意义11-12
- 1.2 国内外研究现状12-14
- 1.3 论文课题来源14
- 1.4 论文主要研究内容14-15
- 1.5 论文结构15-16
- 1.6 本章小结16-17
- 第二章 相关技术简介17-27
- 2.1 Web信息抽取相关技术17-19
- 2.1.1 Web信息抽取17
- 2.1.2 Web信息抽取技术分析17-18
- 2.1.3 抽取评价指标18-19
- 2.2 文本预处理19-20
- 2.3 SVM分类算法20
- 2.4 隐马尔科夫模型20-21
- 2.4.1 离散马尔科夫(Markov)过程20-21
- 2.4.2 隐马尔科夫模型21
- 2.4.3 HMM模型的三个基本问题21
- 2.5 词向量21-22
- 2.5.1 单一表示22
- 2.5.2 分散表示22
- 2.6 统计语言模型22-24
- 2.7 神经网络模型24-26
- 2.8 本章小结26-27
- 第三章 互联网不良信息监测管理平台概述27-33
- 3.1 互联网不良信息监测管理平台简介27
- 3.2 互联网不良信息监测管理平台中信息采集及抽取子系统概述27-29
- 3.3 互联网不良信息监测管理平台中的不良信息识别子系统概述29-31
- 3.4 论文研究的关键问题分析31
- 3.5 本章小结31-33
- 第四章 信息采集抽取的设计与实现33-53
- 4.1 论坛、微博信息采集抽取子系统框架设计33-34
- 4.1.1 信息采集的设计目标33
- 4.1.2 信息抽取的设计目标33-34
- 4.1.3 系统框架设计34
- 4.2 爬取策略34-41
- 4.2.1 论坛爬取策略35-38
- 4.2.1.1 通用网络爬虫采集原理35
- 4.2.1.2 针对论坛结构特点分析35-37
- 4.2.1.3 针对论坛信息采集的抓取任务定制37
- 4.2.1.4 论坛采集策略37-38
- 4.2.2 微博采集策略38-41
- 4.2.2.1 针对微博结构特点分析38-40
- 4.2.2.2 针对微博采集的抓取任务定制40
- 4.2.2.3 微博采集策略40-41
- 4.3 基于结构的论坛、微博信息抽取的方法41-42
- 4.4 信息采集子系统的设计与实现42-46
- 4.4.1 信息采集子系统的实现42-45
- 4.4.1.1 信息采集子系统的静态结构图42-44
- 4.4.1.2 信息采集子系统的动态模型44-45
- 4.4.2 信息采集子系统的存储结构45-46
- 4.5 信息抽取子系统的设计与实现46-49
- 4.5.1 信息抽取子系统的实现46-48
- 4.5.1.1 信息抽取子系统的静态结构图46-48
- 4.5.1.2 信息抽取子系统的动态模型48
- 4.5.2 信息抽取子系统的存储结构48-49
- 4.6 系统部分界面概览49-50
- 4.7 实验结果及分析50-51
- 4.8 本章小结51-53
- 第五章 基于特征的不良信息识别研究与设计53-71
- 5.1 不良信息识别设计目标53
- 5.2 不良信息识别系统设计53-63
- 5.2.1 特征词扩展分析54
- 5.2.2 不良信息识别系统框架54-56
- 5.2.3 数据预处理器56
- 5.2.4 特征扩展器56-63
- 5.2.4.1 特征扩展的总体框架57
- 5.2.4.2 基于HMM的词极性标注57-61
- 5.2.4.3 基于word2vec的词扩展61-63
- 5.2.4.4 特征权重计算器63
- 5.3 不良信息识别子系统设计与实现63-66
- 5.3.1 不良信息识别子系统的静态结构图63-65
- 5.3.2 不良信息识别子系统的动态模型65
- 5.3.3 不良信息识别子系统的存储结构65-66
- 5.4 系统部分界面概览66-67
- 5.5 实验结果与分析67-69
- 5.6 本章小结69-71
- 第六章 总结与展望71-73
- 6.1 论文总结71
- 6.2 研究展望71-73
- 致谢73-75
- 参考文献75-79
- 附录A:攻读硕士学位期间发表的论文79-81
- 附录B:攻读硕士学位期间参与完成的科研成果81
本文编号:652014
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/652014.html