基于自然语言处理的互联网舆情高危信息处理模块的研究
发布时间:2021-01-20 10:22
进入互联网2.0的时代以来,进入到互联网信息井喷的时代,互联网媒体的迅速发展使其成为社会信息流通传递、参与社会公共事务的重要渠道,网络舆论监督、大数据分析与应用业已成为政府社会治理的重要途径。目前传统的舆情分析是建立在统计与规则之下的系统架构,通过长期的词表筛选和人工审核来建立更加完善的规则机制。但互联网信息量呈指数级发展,继续加大人力投入,基本成为不可能的事情。因此,探索与寻找一条智能化信息处理方式,能够快速处理当前呈爆炸式增长的数据,成为当前迫在眉睫的主要任务。本文着重对高危预警模块进行研究,建立具有高召回率的模块,分析如何将相关突发事件快速准确的推送给相关部门机构是需要重点突破的研究方向。本文通过重新设计重要度模块,重写重要度预警规则,通过深度学习与机器学习算法结合的方式来提高召回率与准确率。具体完成的工作有以下几点:(1)本文进行了语料的预处理以及粗标注,构建“信息介入”模型的语料。构建多模式字符串匹配算法AC自动机进行语料的筛选。(2)构建深度学习模型BiLSTM神经网络对“信息介入”模型进行文本分类算法的训练,将语料文本分为三大类(介入、非介入、不相关)。数据集采用2017...
【文章来源】:内蒙古大学内蒙古自治区 211工程院校
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
Sgmoid曲线
将 one-hot 形式的词向量输入到单层神经网络模型当中,其中输入层该和 one-hot 表示方式的词向量维数相对应。比如,输入词是“皇宫”,向量[0,1,0,0],那么,应该设置输入层的神经元的数量就应该是 4。通过神经网络中的映射层中的激活函数,计算目标单词与其他词汇的关,使用了负采样的方式来提高其训练速度和正确率。通过使用随机梯度下降算法来计算损失值。通过反向传播算法更新每个神经元节点的权重值和偏向值。ord2Vec 的本质其实是一种降维操作,将 one-hot 形式的词向量转化为 ec 有两种训练词向量的方式。通过两种不同的训练方式训练得到结果网络进行词关联的训练是这两种方法的相同的地方。BOW 模型(Continuous Bag-of-Words Model)
基于自然语言处理的互联网舆情高危信息处理模块的研究型的特点是输入已知上下文,输出对当前单词的预测。似然函数进行参数的估计:=wc logp(w|Context(w))示训练 Context 中任意一个词。首先输入的是 one-hot 向量,有激活函数,输出层是一个 softmax 层,输出一个概率分布,。m 模型(Continuous Skip-gram Model)只是逆转了 CBOW 的因果关系而已,即已知当前词语,预测
【参考文献】:
期刊论文
[1]基于AC自动机和贝叶斯方法的垃圾内容识别[J]. 丁川芸,兰全祥. 黑龙江工业学院学报(综合版). 2019(02)
[2]基于马尔可夫链的涉警舆情预警方法研究[J]. 王叙然,张鹏. 武警学院学报. 2018(12)
[3]基于GBDT等数据挖掘算法的场景用户识别方法[J]. 陈晓芳,张天韵,张儒申,皇甫俊伟,王征,赵琦琦. 电信科学. 2018(S2)
[4]基于深度学习的文本分类系统关键技术研究与模型验证[J]. 汪少敏,杨迪,任华. 电信科学. 2018(12)
[5]国内外网络舆情演化、预警和应对理论研究综述[J]. 王兰成,陈立富. 图书馆杂志. 2018(12)
[6]网络舆情传播事件预警机制与渎职侦办规制研究[J]. 苗玲玲,王飞,孙培炎. 新闻爱好者. 2018(11)
[7]基于LSTM的金融新闻倾向性[J]. 郑国伟,吕学强,夏红科,周建设. 计算机工程与设计. 2018(11)
[8]梯度提升树在月售电量预测中的应用[J]. 李欢欢,王紫鹏,倪平波,张强. 电子世界. 2018(21)
[9]因子分解机应用[J]. 张华南. 电子技术与软件工程. 2018(19)
[10]基于XGBoost算法的用户行为预测与风险分析[J]. 邱耀,杨国为. 工业控制计算机. 2018(09)
博士论文
[1]面向公共危机预警的网络舆情分析研究[D]. 董坚峰.武汉大学 2013
硕士论文
[1]基于用户画像和因子分解机的推荐算法研究[D]. 杨捷.中北大学 2018
[2]基于LSTM模型分析的酒店智能推荐系统研究[D]. 刘烨.上海师范大学 2018
[3]基于机器学习的情感分析方法研究[D]. 张磊.电子科技大学 2018
[4]基于概率模型检验的车载无线自组织网络路由协议研究[D]. 王峰.南京邮电大学 2017
[5]面向政务需求的网络舆情分析方法研究[D]. 张祥.电子科技大学 2017
[6]基于EMD-XGBoost-AR模型的网络舆情预测研究[D]. 黄艳莹.广东工业大学 2017
[7]基于自然语言处理的社交网络数据挖掘研究[D]. 张培华.华北电力大学 2017
[8]基于贝叶斯算法的屏蔽策略优化研究及手机助手系统实现[D]. 于杰.北京交通大学 2016
[9]基于比特并行的字典搜索的研究与实现[D]. 叶成东.吉林大学 2016
[10]微博文本情感分类研究[D]. 陈思.吉林大学 2016
本文编号:2988872
【文章来源】:内蒙古大学内蒙古自治区 211工程院校
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
Sgmoid曲线
将 one-hot 形式的词向量输入到单层神经网络模型当中,其中输入层该和 one-hot 表示方式的词向量维数相对应。比如,输入词是“皇宫”,向量[0,1,0,0],那么,应该设置输入层的神经元的数量就应该是 4。通过神经网络中的映射层中的激活函数,计算目标单词与其他词汇的关,使用了负采样的方式来提高其训练速度和正确率。通过使用随机梯度下降算法来计算损失值。通过反向传播算法更新每个神经元节点的权重值和偏向值。ord2Vec 的本质其实是一种降维操作,将 one-hot 形式的词向量转化为 ec 有两种训练词向量的方式。通过两种不同的训练方式训练得到结果网络进行词关联的训练是这两种方法的相同的地方。BOW 模型(Continuous Bag-of-Words Model)
基于自然语言处理的互联网舆情高危信息处理模块的研究型的特点是输入已知上下文,输出对当前单词的预测。似然函数进行参数的估计:=wc logp(w|Context(w))示训练 Context 中任意一个词。首先输入的是 one-hot 向量,有激活函数,输出层是一个 softmax 层,输出一个概率分布,。m 模型(Continuous Skip-gram Model)只是逆转了 CBOW 的因果关系而已,即已知当前词语,预测
【参考文献】:
期刊论文
[1]基于AC自动机和贝叶斯方法的垃圾内容识别[J]. 丁川芸,兰全祥. 黑龙江工业学院学报(综合版). 2019(02)
[2]基于马尔可夫链的涉警舆情预警方法研究[J]. 王叙然,张鹏. 武警学院学报. 2018(12)
[3]基于GBDT等数据挖掘算法的场景用户识别方法[J]. 陈晓芳,张天韵,张儒申,皇甫俊伟,王征,赵琦琦. 电信科学. 2018(S2)
[4]基于深度学习的文本分类系统关键技术研究与模型验证[J]. 汪少敏,杨迪,任华. 电信科学. 2018(12)
[5]国内外网络舆情演化、预警和应对理论研究综述[J]. 王兰成,陈立富. 图书馆杂志. 2018(12)
[6]网络舆情传播事件预警机制与渎职侦办规制研究[J]. 苗玲玲,王飞,孙培炎. 新闻爱好者. 2018(11)
[7]基于LSTM的金融新闻倾向性[J]. 郑国伟,吕学强,夏红科,周建设. 计算机工程与设计. 2018(11)
[8]梯度提升树在月售电量预测中的应用[J]. 李欢欢,王紫鹏,倪平波,张强. 电子世界. 2018(21)
[9]因子分解机应用[J]. 张华南. 电子技术与软件工程. 2018(19)
[10]基于XGBoost算法的用户行为预测与风险分析[J]. 邱耀,杨国为. 工业控制计算机. 2018(09)
博士论文
[1]面向公共危机预警的网络舆情分析研究[D]. 董坚峰.武汉大学 2013
硕士论文
[1]基于用户画像和因子分解机的推荐算法研究[D]. 杨捷.中北大学 2018
[2]基于LSTM模型分析的酒店智能推荐系统研究[D]. 刘烨.上海师范大学 2018
[3]基于机器学习的情感分析方法研究[D]. 张磊.电子科技大学 2018
[4]基于概率模型检验的车载无线自组织网络路由协议研究[D]. 王峰.南京邮电大学 2017
[5]面向政务需求的网络舆情分析方法研究[D]. 张祥.电子科技大学 2017
[6]基于EMD-XGBoost-AR模型的网络舆情预测研究[D]. 黄艳莹.广东工业大学 2017
[7]基于自然语言处理的社交网络数据挖掘研究[D]. 张培华.华北电力大学 2017
[8]基于贝叶斯算法的屏蔽策略优化研究及手机助手系统实现[D]. 于杰.北京交通大学 2016
[9]基于比特并行的字典搜索的研究与实现[D]. 叶成东.吉林大学 2016
[10]微博文本情感分类研究[D]. 陈思.吉林大学 2016
本文编号:2988872
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2988872.html