基于机器学习的用户恶意评论检测研究

发布时间:2021-03-28 08:05
  随着移动互联网的普及,人们可以随时随地在网络中发表自己的观点。一方面媒体公司需要用户积极参与评论,另一方面在众多评论中也混杂着恶意评论。这些评论不仅在精神上伤害了他人,而且也使得整个网络环境变得混乱不堪。更重要的是,受攻击者会逐渐使用其他产品,不利于公司的发展。公司管理者需要过滤出现的恶意评论,但是小公司无法承受人工检测的成本。因此,需要设计一个恶意评论自动检测方案。针对这些问题,本文提出一种基于机器学习的网络恶意评论检测方案。具体包括:首先,运用中国汉语言学对“詈语”的研究,从中挑选40个种子字,在此基础上通过扩展算法得到一份恶意词典。相比人工选取种子词,这样极大的节省人工的成本。另外,该词典也可作为中文分词器的自定义词典,用以提升分词准确率。其次,以用户为维度,分析每个用户下历史评论所在的新闻主题,使用LDA模型提取新闻内容的主题,以“用户id”、“用户评论”、“评论所属新闻内容”作为RNN模型的输入。实验表明本文改进模型提升对恶意评论的检测效果。最后,将前两章的实验结果与传统检测系统所选取的特征相结合。从数据集中提取13类特征,计算皮尔森相关系数并分析特征,最后将特征作为决策树和... 

【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校

【文章页数】:74 页

【学位级别】:硕士

【部分图文】:

基于机器学习的用户恶意评论检测研究


图2-1网络爬虫工作过程[29]??在爬虫系统中,待抓取队列中的URL以什么样的顺序排列是用户需要考虑??

执行控制,体系结构,内部数据,框架


Scrapy—个用Python语言实现的网络爬虫框架,其具有快速、可进行高层??次屏幕抓取,便于修改等特点,常常应用于信息处理、数据挖掘、存储历史数??据和自动化测试等工作中。Scrapy体系结构如图2-2所示,其主要包括以下组??件:??1.

流程图,流程图,词典


词之间没有明显的分界符,而不同的切分结果也将影响着用户对语义的理解。??Jieba中文分词[32]是一种基于词典的开源中文分词组件,该组件的分词流程??如图2-3所示。首先使用中文词典生成Trie树并将每个词出现的次数转为频率;??基于Trie树结构完成高效的词图扫描工作,将待切分句子生成所有可能成词的??情况构成相应的DAG?(Directed?Acyclic?Graph);然后使用动态规划算法寻找最??大概率路径,最后基于词频的找到最大概率词段组合。Jieba分词器提供三种分??词模式:精确模式、全模式、搜索引擎模式,这种分词器的准确率与效率依赖??于词典的选择。若能添加适合待切分数据集的自定义词典,那么会有助于降低??错误切分词语的概率。??—??自带词典?<?^?f^??---i(加载词典]?[待切分句子'??自定义词典????v??Trie树??>?DAG?图??????DAG图??图2-3?Jieba分词流程图??LTP-Clcmd[33H吾言技术平台云是哈工大社会计算与信息检索研究中心研发??的,其可以为用户提供高效精准的中文自然语言处理云服务。其中包含多种功??能:分词,词性标注,命名实体识别,语义依存分析,依存句法分析,语义角??色标注。用户根据API参数构造相应的HTTP请求即可获得在线分析结果,该??10??


本文编号:3105184

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3105184.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户94942***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com