基于机器学习的政协提案和相关舆情的分析
发布时间:2020-09-30 00:44
全国政协提案是我国政治制度非常重要的机制之一,每年全国各级政协委员都要提出提案,仅北京市2018年公开的提案就有798件,全国各级政协委员提出的提案总数更多。采用技术手段对政协委员形成的提案进行热点主题发现,并根据这些热点主题进行舆情统计分析,可以挖掘相应的社情民意,为政协委员提供技术信息的参考。目前,关于提案的热点主题发现和采用技术手段对热点主题进行舆情统计的相关研究尚未见到。本文设计了一套政协提案及其相关舆情分析系统,为政协委员提供信息技术支持。本文主要工作包括以下几个方面:(1)对政协提案划分主题并提取关键词。编写网络爬虫程序,从政协提案网站采集了提案数据;根据政协提案的结构特点对提案进行向量化表示,使用K-means聚类算法对提案进行聚类,每一类表示一个主题;设计了两种关键词提取算法从每个主题中分别提取出三个关键词,分别简称“长词”和“短词”,并设计对比实验分析了两组关键词的有效性,结果表明“长词”比“短词”更能反映主题内容。(2)设计、训练情感分类模型并预测所有未标注数据的标签。开发爬虫程序,采集了每个“长词”的微博舆情数据并保存为结构化文本格式;设计了基于双向LSTM的情感分类模型,训练模型,在测试集上达到了 90.45%的准确率,远远高于基于传统机器学习算法的情感分类模型在该数据集上的测试准确率。(3)对政协提案的相关舆情进行统计并可视化。在上述工作的基础上,对获取的微博舆情数据进行了统计:从关注度演进趋势和关注度大小、情感演进趋势和情感倾向等角度对每个主题的相关舆情进行了统计分析。
【学位单位】:北京交通大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP391.1;TP181;D627;C912.63
【部分图文】:
图2-1邋CBOW模型结构图[41]逡逑Figure邋2-1邋The邋structure邋of邋CBOW邋modell41!逡逑由图2-1可知,CBOW模型由三层不同的结构组成,分别是输入层、投影层逡逑和输出层。对于语料库中的每条样本数据,该模型是通过输入每个样本中某个中心逡逑词的前后几个词来预测该词出现的概率。输入层输入的是待训练词即中心词w的逡逑前后各c个词的词向量,其中c可以自己设定,以“今天的天气很晴朗”为例,将逡逑该句子分词后的结果为:“今天”、“的”、“天气”、“很”、“晴朗”,假设逡逑我们要得到“天气”的词向量,以c的值取1为例,“天气”的前后各1个词分别逡逑是“的”和“很”,则输入层输入这两个词的随机初始化的词向量;投影层将输入逡逑的词向量相加并输入到输出层;输出层则根据不同的结构采用不同的算法。逡逑Skip-gram模型与CBOW模型的原理相同,但网络结构正好相反。Skip-gram逡逑模型的结构如图2-2所示:逡逑INPUT邋PROJECTION邋OUTPUT逡逑4逦w(t-2)逡逑<逦W(M)逡逑<逦w(t+1)逡逑,w(H2)逡逑图2-2邋Skip-gram模型结构图[41]逡逑Figure邋2-2邋The邋s
w(t+1)逡逑w(t+2)逡逑图2-1邋CBOW模型结构图[41]逡逑Figure邋2-1邋The邋structure邋of邋CBOW邋modell41!逡逑由图2-1可知,CBOW模型由三层不同的结构组成,分别是输入层、投影层逡逑和输出层。对于语料库中的每条样本数据,该模型是通过输入每个样本中某个中心逡逑词的前后几个词来预测该词出现的概率。输入层输入的是待训练词即中心词w的逡逑前后各c个词的词向量,其中c可以自己设定,以“今天的天气很晴朗”为例,将逡逑该句子分词后的结果为:“今天”、“的”、“天气”、“很”、“晴朗”,假设逡逑我们要得到“天气”的词向量,以c的值取1为例,“天气”的前后各1个词分别逡逑是“的”和“很”,则输入层输入这两个词的随机初始化的词向量;投影层将输入逡逑的词向量相加并输入到输出层;输出层则根据不同的结构采用不同的算法。逡逑Skip-gram模型与CBOW模型的原理相同,但网络结构正好相反。Skip-gram逡逑模型的结构如图2-2所示:逡逑INPUT邋PROJECTION邋OUTPUT逡逑4逦w(t-2)逡逑<逦W(M)逡逑<逦w(t+1)逡逑
循环神经网络是一种用于处理时间序列数据的神经网络模型[26],常见的时间逡逑序列数据如语音数据、文本数据等均适用于使用循环神经网络进行处理。逡逑循环神经网络模型如图2-3所示:逡逑?逦?逦?逦?逦?逡逑rXn逦T逦T逦T逦T逡逑A」逦=邋A邋—?邋A邋—?邋A邋逦?邋A逡逑(^)邋(^)邋(^)邋...邋(^)逡逑图2-3循环神经网络结构图逡逑Figure邋2-3邋Recurrent邋neural邋network邋structure逡逑15逡逑
本文编号:2830499
【学位单位】:北京交通大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP391.1;TP181;D627;C912.63
【部分图文】:
图2-1邋CBOW模型结构图[41]逡逑Figure邋2-1邋The邋structure邋of邋CBOW邋modell41!逡逑由图2-1可知,CBOW模型由三层不同的结构组成,分别是输入层、投影层逡逑和输出层。对于语料库中的每条样本数据,该模型是通过输入每个样本中某个中心逡逑词的前后几个词来预测该词出现的概率。输入层输入的是待训练词即中心词w的逡逑前后各c个词的词向量,其中c可以自己设定,以“今天的天气很晴朗”为例,将逡逑该句子分词后的结果为:“今天”、“的”、“天气”、“很”、“晴朗”,假设逡逑我们要得到“天气”的词向量,以c的值取1为例,“天气”的前后各1个词分别逡逑是“的”和“很”,则输入层输入这两个词的随机初始化的词向量;投影层将输入逡逑的词向量相加并输入到输出层;输出层则根据不同的结构采用不同的算法。逡逑Skip-gram模型与CBOW模型的原理相同,但网络结构正好相反。Skip-gram逡逑模型的结构如图2-2所示:逡逑INPUT邋PROJECTION邋OUTPUT逡逑4逦w(t-2)逡逑<逦W(M)逡逑<逦w(t+1)逡逑,w(H2)逡逑图2-2邋Skip-gram模型结构图[41]逡逑Figure邋2-2邋The邋s
w(t+1)逡逑w(t+2)逡逑图2-1邋CBOW模型结构图[41]逡逑Figure邋2-1邋The邋structure邋of邋CBOW邋modell41!逡逑由图2-1可知,CBOW模型由三层不同的结构组成,分别是输入层、投影层逡逑和输出层。对于语料库中的每条样本数据,该模型是通过输入每个样本中某个中心逡逑词的前后几个词来预测该词出现的概率。输入层输入的是待训练词即中心词w的逡逑前后各c个词的词向量,其中c可以自己设定,以“今天的天气很晴朗”为例,将逡逑该句子分词后的结果为:“今天”、“的”、“天气”、“很”、“晴朗”,假设逡逑我们要得到“天气”的词向量,以c的值取1为例,“天气”的前后各1个词分别逡逑是“的”和“很”,则输入层输入这两个词的随机初始化的词向量;投影层将输入逡逑的词向量相加并输入到输出层;输出层则根据不同的结构采用不同的算法。逡逑Skip-gram模型与CBOW模型的原理相同,但网络结构正好相反。Skip-gram逡逑模型的结构如图2-2所示:逡逑INPUT邋PROJECTION邋OUTPUT逡逑4逦w(t-2)逡逑<逦W(M)逡逑<逦w(t+1)逡逑
循环神经网络是一种用于处理时间序列数据的神经网络模型[26],常见的时间逡逑序列数据如语音数据、文本数据等均适用于使用循环神经网络进行处理。逡逑循环神经网络模型如图2-3所示:逡逑?逦?逦?逦?逦?逡逑rXn逦T逦T逦T逦T逡逑A」逦=邋A邋—?邋A邋—?邋A邋逦?邋A逡逑(^)邋(^)邋(^)邋...邋(^)逡逑图2-3循环神经网络结构图逡逑Figure邋2-3邋Recurrent邋neural邋network邋structure逡逑15逡逑
【参考文献】
相关期刊论文 前9条
1 梁军;柴玉梅;原慧斌;昝红英;刘铭;;基于深度学习的微博情感分析[J];中文信息学报;2014年05期
2 王李冬;魏宝刚;袁杰;;基于概率主题模型的文档聚类[J];电子学报;2012年11期
3 杨春明;韩永国;;快速的领域文档关键词自动提取算法[J];计算机工程与设计;2011年06期
4 马力;焦李成;白琳;周雅夫;董洛兵;;基于小世界模型的复合关键词提取方法研究[J];中文信息学报;2009年03期
5 赵琦;张智雄;孙坦;许雁冬;;主题发现技术方法研究[J];情报理论与实践;2009年04期
6 郭建永;蔡勇;甄艳霞;;基于文本聚类技术的主题发现[J];计算机工程与设计;2008年06期
7 张玉权;;谈谈提案的采纳与落实问题——关于提案办理评估体系的思考与探索[J];湖北省社会主义学院学报;2007年06期
8 徐军;丁宇新;王晓龙;;使用机器学习方法进行新闻的情感自动分类[J];中文信息学报;2007年06期
9 娄德成;姚天f ;;汉语句子语义极性分析和观点抽取方法的研究[J];计算机应用;2006年11期
相关硕士学位论文 前2条
1 王君扬;政协提案在基层政府决策中的作用分析[D];华侨大学;2015年
2 王法顺;政协提案信息化管理系统的设计与实现[D];山东大学;2008年
本文编号:2830499
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2830499.html