政府通告文本分类系统的设计与实现
发布时间:2020-07-26 09:59
【摘要】:近年来,随着互联网数据时代的发展,政务信息逐渐公开透明化,如何提高政府在公共事务上的管理效率成了一个热门话题。政府在公共事务管理上通常是通过制定一系列政策来完成,因此,如何组织和管理政府的政策信息成了解决这一问题的关键点。本文利用文本挖掘技术,以文本分类的方式对政府政策文本数据进行挖掘分析,为政府政策文本数据提供有效分析手段,促进政务信息管理朝着智能化方向发展。国内外对文本分类技术的研究大多建立在现成语料库上,而针对具体领域的应用研究很少。本文以政府网站上的政策文本为数据源,利用18096篇政策文本进行分类研究。提取出其中十个大类作为文本数据的分类目标,通过数据清洗和特征工程构建文本模型,利用文本分类算法结合分类评价指标综合对比文本分类效果,建立并调用分类器模型完成分类系统设计与实现。本文的主要工作内容如下:(1)通过网络爬虫获取政府网站的政策文本信息和类别信息,构建政策公告文本语料库,为政策文本分类提供研究基础。(2)对政策文本分词后的词语进行特征选择,提出混合特征选择方法MFS,对原始文本语料进行降维处理,将其与TF-IDF、MI、CHI等传统特征选择方法进行对比,该方法表现出较好的分类效果。(3)将主题模型LDA应用到文本分类的研究上,作为文本降维的手段,LDA主题模型能将文本空间从数万维降低到数十维,并得到良好的分类效果。(4)将深度学习模型应用到文本分类任务中,利用Word2vec结合TextCNN构造文本分类模型,对比分析在大规模语料库和自建语料库上的文本分类效果,实验表明在小规模语料库上深度学习模型容易出现过拟合现象。本文通过对比分析,确定了以MFS为特征选择方法,利用TF-IDF进行文本建模,以SVM为分类算法构建政策通告文本分类模型,经过语料库训练得到的分类器在每个类别的测试集上达到92%的平均准确率,调用训练好的文本分类模型实现了一个的网页端的文本分类系统。
【学位授予单位】:东南大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:D63;TP391.1
【图文】:
图 2-3 NNLM 神经网络架构图神经网络中的参数为
本文编号:2770620
【学位授予单位】:东南大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:D63;TP391.1
【图文】:
图 2-3 NNLM 神经网络架构图神经网络中的参数为
本文编号:2770620
本文链接:https://www.wllwen.com/guanlilunwen/zhengwuguanli/2770620.html