当前位置:主页 > 科技论文 > 软件论文 >

网络垃圾信息识别方法研究

发布时间:2021-03-29 13:30
  网络以一种全新的信息传播方式影响和改变着我们的生活,也让我们不经意进入了一种大众传媒的新时代中。在网络中人人都可以随时发布信息,这导致了网络信息的泛滥,同时也导致了网络垃圾信息的泛滥。近几年,深度学习技术迅猛发展,大大改变了自然语言处理领域的现状。本文针对Quora网站上的提问标题作为文本数据进行分析,希望识别出其中的垃圾信息即虚假提问。由于数据的特殊性,很多提问文本作为垃圾信息具有一定的隐蔽性。传统的基于词频的机器学习方法的表现受到了限制,这类问题对我们的模型和效果提出了新的要求。因此,本文同时运用机器学习和深度学习的方法,进行对比研究,探索各种方法在Quora数据集上的表现情况。本文采用的传统机器学习方法分别是朴素贝叶斯模型和逻辑回归模型。在传统机器学习方法中,我们通过TF-IDF技术将文本转化成向量,作为模型的输入,通过对模型超参数进行调整,提高模型分类效果,然而,这两种单个模型的表现均不优秀。因此,本文又将两种分类的结果作为输入,用岭回归构建堆叠法集成模型,并通过调整正则化项系数,使模型效果提升,同时避免过拟合。最优秀的传统机器学习模型达到了0.60436的F1-score。在... 

【文章来源】:上海师范大学上海市

【文章页数】:71 页

【学位级别】:硕士

【部分图文】:

网络垃圾信息识别方法研究


Quora流量来源分布图

垃圾信息,识别系统


垃圾信息识别系统

文本分类,相关理论,垃圾信息,文献综述


4图 1-3 本文研究框架第一章,绪论 首先阐述了本文的研究背景和研究内容,然后介绍了研究的框架和意义,对全文有提纲挈领的作用 第二章,文献综述和相关理论 垃圾信息识别,归根到底是一个文本分类的问题,而文本分类又从属于自然语言处理的范畴 这一章节列举了国内外关于文本分类的对本文有指导意义的研究,既有国外学者的成果,也有国内学者的内容 在相关理论部分,本文重点研究了三个方面,分别是文本预处理方

【参考文献】:
期刊论文
[1]基于CapsNet的中文文本分类研究[J]. 冯国明,张晓冬,刘素辉.  数据分析与知识发现. 2018(12)
[2]基于Word2vec的文档分类方法[J]. 陈杰,陈彩,梁毅.  计算机系统应用. 2017(11)
[3]基于卷积神经网络的互联网短文本分类方法[J]. 郭东亮,刘小明,郑秋生.  计算机与现代化. 2017(04)
[4]基于递归神经网络的文本分类研究[J]. 黄磊,杜昌顺.  北京化工大学学报(自然科学版). 2017(01)
[5]基于事件卷积特征的新闻文本分类[J]. 夏从零,钱涛,姬东鸿.  计算机应用研究. 2017(04)
[6]基于Word2Vec的一种文档向量表示[J]. 唐明,朱磊,邹显春.  计算机科学. 2016(06)
[7]基于最近邻子空间搜索的两类文本分类方法[J]. 李玉鑑,王影,冷强奎.  计算机工程与科学. 2015(01)
[8]基于LDA特征扩展的短文本分类[J]. 吕超镇,姬东鸿,吴飞飞.  计算机工程与应用. 2015(04)
[9]基于SVM算法的文本分类技术研究[J]. 崔建明,刘建明,廖周宇.  计算机仿真. 2013(02)



本文编号:3107628

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3107628.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d08f2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com