当前位置:主页 > 法律论文 > 治安法论文 >

SVM文本分类器在公安信息系统中的应用研究

发布时间:2017-06-28 02:00

  本文关键词:SVM文本分类器在公安信息系统中的应用研究,由笔耕文化传播整理发布。


【摘要】:近些年来,我国互联网技术飞速发展,计算机使用日益普及,人们从网络上获取知识和信息更加便捷。但海量数据的出现在给大众带来方便的同时,也给公安系统的警务人员们带来了繁重的工作量。众所周知,在以多、快、杂为特点的网络信息中,合法与不合法信息、正面与负面信息互相充斥,这也就意味着为了避免消极信息的进一步扩散,网络警察们必须及时、有效的处理那些非法的网络信息。而传统的人工处理方法却存在着人力不足、处理不到位等诸多问题。为了解决面对海量网络信息,公安系统所呈现的警力资源匮乏、工作量繁重以及工作效率不高等诸多问题,本文在深入研究支持向量机(SVM)理论以及网络文本分类技术的基础上,设计并实现了基于SVM的网络文本信息分类器在公安信息系统的应用研究这一具有挑战性的课题。实验结果表明该分类器取得了令人满意的分类结果。本课题的主要研究内容及取得的主要成果如下:(1)本课题在文本分词阶段,使用隐马尔科夫模型(HMM)实现分词程序。与中科院的汉语分词系统ICTCLAS相比,隐马尔科夫模型可以将公安信息系统现有的敏感词库中的敏感名词和前面动词分到一起,例如敏感词库中包含“东突”一词,隐马尔科夫模型可以将动词“打击”和“东突”分到一起。这种分词方法有效的降低了中文分词过程中信息量的丢失程度,从而提高了分词的效率和准确率。(2)在特征选择过程中,本课题通过对比多种特征选择算法,最终选择了使用开方检验来实现特征选择。开方检验使用差值衡量公式来确定理论值和观察值的偏差程度,在很大程度上减少了由于偶然产生或者测量不精确产生的误差,从而进一步提高分类器的分类准确率。(3)在特征权重计算过程中,选用经典的文本特征权重计算公式(TF-IDF)并根据公安信息系统对网络信息处理的特殊性要求,引入交集系数即首先将待分类的文本与公安信息系统现有的敏感词库取交集,一旦交集非空,便给集合中的敏感词赋予最高特征权重,从而加重了敏感特征词在文本分类中的贡献程度。
【关键词】:支持向量机 公安 文本分类 隐马尔科夫模型 开方检验 TF-IDF
【学位授予单位】:石家庄铁道大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1;D631
【目录】:
  • 摘要3-4
  • Abstract4-7
  • 第一章 绪论7-12
  • 1.1 课题研究背景和意义7-8
  • 1.2 国内外研究现状8-10
  • 1.2.1 文本分类技术的研究现状9
  • 1.2.2 支持向量机的研究现状9-10
  • 1.3 主要研究内容10-11
  • 1.4 论文组织结构11-12
  • 第二章 关键技术与理论基础12-21
  • 2.1 文本分类技术12-14
  • 2.2 支持向量机理论14-17
  • 2.3 隐马尔科夫模型17-18
  • 2.4 开方检验算法18-19
  • 2.5 改进的TF-IDF算法19-21
  • 第三章 公安信息系统对网络文本分类器的需求分析及其架构设计21-26
  • 3.1 公安信息系统概述21-22
  • 3.2 公安信息系统对分类器的需求分析22-24
  • 3.3 文本分类器的架构设计24-26
  • 第四章 SVM网络文本分类器的模块设计与实现26-41
  • 4.1 网页信息文本预处理26-36
  • 4.1.1 网页信息文本去噪26-30
  • 4.1.2 文本分词30-33
  • 4.1.3 去除停用词33-36
  • 4.2 网页文本特征处理模块36-37
  • 4.3 网页文本向量表示模块37-39
  • 4.4 SVM分类器构造模块39-41
  • 第五章 SVM网络文本分类器测试与应用41-48
  • 5.1 SVM网络文本分类器在公安信息系统的应用与分析41-44
  • 5.2 SVM网络文本分类器的性能评价44-48
  • 5.2.1 训练与测试文本44-45
  • 5.2.2 性能评估标准45-46
  • 5.2.3 测试结果与性能分析46-48
  • 第六章 结论和展望48-50
  • 6.1 结论48
  • 6.2 展望48-50
  • 参考文献50-53
  • 致谢53-54
  • 个人简历、在学期间的研究成果及发表的学术论文54

【相似文献】

中国重要会议论文全文数据库 前2条

1 张阳;李战怀;卢维扬;;通过弱化朴素贝叶斯假设提高朴素贝叶斯文本分类器的性能[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

2 周永健;郑玉明;廖湖声;;基于模糊聚类的文本分类器[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年

中国博士学位论文全文数据库 前1条

1 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年

中国硕士学位论文全文数据库 前10条

1 李l喉,

本文编号:492023


资料下载
论文发表

本文链接:https://www.wllwen.com/falvlunwen/fanzuizhian/492023.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8136a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com