网络小说误导性评论过滤技术研究
发布时间:2024-02-15 11:02
截至2018年,我国网络文学读者已突破4亿人,读者每天发布海量小说评论,大量低质量评论充斥着评论区。而误导性评论作为低质量评论中的一类,影响读者的阅读体验,需要对它们进行有效的过滤。相较于传统文本分类问题,误导性评论过滤是典型的网络短文本分类问题,高效地对其进行过滤有三个难点:文本长度短,上下文信息量不足;口语化表达带来的文本不规范问题;评论情感倾向不平衡性导致的样本分布不平衡。近些年来,深度学习技术凭借其抽取数据特征的优势和强大的问题拟合能力,在文本分类、机器翻译等诸多自然语言处理领域获得了巨大成功,同时也为短文本分类问题提供了全新视角。本文目标在于设计一个高效的误导性评论过滤系统,该系统针对误导性评论的特点,与传统文本分类系统相比有如下三点改进。(1)提出了基于多种上下文的中文词向量表示方法。由于网络小说评论文本的不规范性,通用词向量覆盖率低,只能使用评论语料在相同分词条件下训练词向量。但是,由于短文本上下文信息不够充足,使用短文本训练的嵌入式词向量表征能力不足,鉴于此提出了基于多种上下文的词向量训练方法,引入了N-gram特征、汉字特征和评分特征,通过多种上下文信息提高词向量的表...
【文章页数】:78 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 研究背景及意义
1.2 网络小说误导性评论特征及误导性评论过滤问题的难点
1.3 国内外研究现状
1.4 主要研究内容
1.5 本文的组织结构
第2章 相关技术概述
2.1 文本表示方法
2.2 词的分布式特征表达相关技术
2.3 基于深度学习的文本过滤相关方法
2.4 文本过滤评估方法
2.5 本章小结
第3章 误导性评论过滤系统设计与实现
3.1 需求分析
3.2 系统概要设计
3.3 系统各模块的设计与实现
3.3.1 数据预处理模块
3.3.2 词向量训练模块
3.3.3 语料补充模块
3.3.4 深度文本分类模型训练模块
3.3.5 评论预测模块
3.3.6 过滤监控与评分更新模块
3.4 本章小结
第4章 基于多种上下文的中文词向量表示方法
4.1 基于多种上下文信息的中文词向量表示方法的提出
4.2 基于多种上下文的词向量共现关系
4.3 multi2vec算法模型
4.4 实验
4.4.1 实验设计
4.4.2 实验设置
4.4.3 与其他先进词向量表示模型比较
4.4.4 消融分析
4.4.5 实验结果分析
4.5 本章小结
第5章 NB-LR语料库扩充算法
5.1 NB-LR语料库扩充算法的提出
5.2 NB-LR语料库扩充算法模型
5.3 实验
5.3.1 实验设计
5.3.2 实验设置
5.3.3 标注耗时比较
5.3.4 与其他分类器比较
5.3.5 语料补充对过滤效果的影响
5.3.6 实验结果分析
5.4 本章小节
第6章 引入评分向量的融合网络文本过滤算法
6.1 引入评分向量的融合网络文本过滤算法的提出
6.2 引入评分向量的融合网络文本过滤算法模型
6.2.1 输入层
6.2.2 权重分配层
6.2.3 文本特征提取层
6.2.4 Softmax分类器
6.3 实验
6.3.1 实验设计
6.3.2 实验设置
6.3.3 与其他文本表示模型比较
6.3.4 消融分析
6.3.5 实验结果分析
6.4 本章小结
第7章 总结与展望
参考文献
致谢
个人简历、在学期间发表的学术论文与研究成果
本文编号:3899636
【文章页数】:78 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 研究背景及意义
1.2 网络小说误导性评论特征及误导性评论过滤问题的难点
1.3 国内外研究现状
1.4 主要研究内容
1.5 本文的组织结构
第2章 相关技术概述
2.1 文本表示方法
2.2 词的分布式特征表达相关技术
2.3 基于深度学习的文本过滤相关方法
2.4 文本过滤评估方法
2.5 本章小结
第3章 误导性评论过滤系统设计与实现
3.1 需求分析
3.2 系统概要设计
3.3 系统各模块的设计与实现
3.3.1 数据预处理模块
3.3.2 词向量训练模块
3.3.3 语料补充模块
3.3.4 深度文本分类模型训练模块
3.3.5 评论预测模块
3.3.6 过滤监控与评分更新模块
3.4 本章小结
第4章 基于多种上下文的中文词向量表示方法
4.1 基于多种上下文信息的中文词向量表示方法的提出
4.2 基于多种上下文的词向量共现关系
4.3 multi2vec算法模型
4.4 实验
4.4.1 实验设计
4.4.2 实验设置
4.4.3 与其他先进词向量表示模型比较
4.4.4 消融分析
4.4.5 实验结果分析
4.5 本章小结
第5章 NB-LR语料库扩充算法
5.1 NB-LR语料库扩充算法的提出
5.2 NB-LR语料库扩充算法模型
5.3 实验
5.3.1 实验设计
5.3.2 实验设置
5.3.3 标注耗时比较
5.3.4 与其他分类器比较
5.3.5 语料补充对过滤效果的影响
5.3.6 实验结果分析
5.4 本章小节
第6章 引入评分向量的融合网络文本过滤算法
6.1 引入评分向量的融合网络文本过滤算法的提出
6.2 引入评分向量的融合网络文本过滤算法模型
6.2.1 输入层
6.2.2 权重分配层
6.2.3 文本特征提取层
6.2.4 Softmax分类器
6.3 实验
6.3.1 实验设计
6.3.2 实验设置
6.3.3 与其他文本表示模型比较
6.3.4 消融分析
6.3.5 实验结果分析
6.4 本章小结
第7章 总结与展望
参考文献
致谢
个人简历、在学期间发表的学术论文与研究成果
本文编号:3899636
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3899636.html