基于改进SVM算法的投诉文本分类研究
发布时间:2021-11-19 13:18
客户关于企业产品和服务投诉日益增多,及时向投诉用户进行反馈是企业保持口碑的关键。投诉文本的自动归类,有利于企业提升投诉问题处理效率,提高用户满意度,避免客户流失。目前,企业中投诉分类过程仍以人工鉴别为主,这种方式不仅效率低、成本高,而且受人的经验和判断能力的影响较大,如何准确、及时地对客户投诉问题进行分类已成为亟需解决的问题。自然语言处理技术的出现使得文本的自动分类成为可能,文本建模方法和分类方法高速发展并逐步应用于实际生活,所以,对投诉文本进行分类研究有着重要的理论和实践价值。本文首先介绍了文本预处理、文本表示方法、分类算法和集成学习的相关内容。然后对投诉文本的产生、影响以及特征进行了分析。针对投诉文本的特点,BTM能够基于内部语料对投诉短文本进行扩展,而Doc2vec可以获得主题模型无法获得的语料信息,选择BTM和Doc2vec相结合的方法对投诉文本进行表示,使得表示投诉文本的特征向量兼具词共现信息、语法和语义信息,也降低了文本特征的维度,同时模型可多次更新,迭代性更强,随着新语料集的增加,文本的特征表示越来越准确。其次在分类器方面,提出了一种结合线性核和多项式核的核函数以改进SV...
【文章来源】:合肥工业大学安徽省 211工程院校 教育部直属院校
【文章页数】:66 页
【学位级别】:硕士
【文章目录】:
致谢
摘要
abstract
第一章 绪论
1.1 研究背景与研究意义
1.1.1 研究背景
1.1.2 研究意义
1.2 研究现状
1.2.1 文本表示的研究现状
1.2.2 文本分类的研究现状
1.2.3 集成学习及其在文本分类方面的研究现状
1.3 研究内容与结构安排
1.3.1 研究内容
1.3.2 结构安排
第二章 相关理论和技术基础
2.1 文本预处理
2.1.1 中文文本分词
2.1.2 术语词典构建及停用词过滤
2.2 文本表示
2.2.1 主题模型
2.2.2 词向量方法
2.3 文本分类
2.4 集成学习
第三章 投诉文本分析及其文本表示
3.1 投诉文本的产生及价值
3.1.1 投诉文本的产生
3.1.2 投诉文本的价值
3.2 投诉文本的分析
3.2.1 投诉文本特征分析
3.2.2 投诉文本建模的关键问题
3.3 投诉文本建模
3.3.1 基于BTM的文本建模
3.3.2 基于Doc2vec的文本建模
3.3.3 基于BTM和 Doc2vec的文本建模
第四章 基于改进 SVM 的投诉文本集成分类
4.1 支持向量机与多分类
4.1.1 支持向量机
4.1.2 多分类方法
4.2 采用混合核的SVM改进
4.2.1 混合核函数
4.2.2 软间隔和惩罚值
4.3 基于改进SVM的投诉文本集成分类
4.3.1 原始输入的构建
4.3.2 集成分类框架
4.3.3 投诉文本的分类流程
第五章 实验研究
5.1 实验环境
5.2 实验数据准备及处理
5.2.1 数据准备
5.2.2 数据处理
5.3 实验设计及评价体系
5.3.1 实验设计
5.3.2 评价指标
5.4 实证及结果分析
5.4.1 核函数比较实验
5.4.2 分类对比实验
5.4.3 参数影响实验
5.4.4 实验结论
第六章 总结与展望
6.1 总结
6.2 工作展望
参考文献
攻读硕士学位期间的学术活动及成果情况
【参考文献】:
期刊论文
[1]基于随机森林的文本分类并行化[J]. 彭徵,王灵矫,郭华. 计算机科学. 2018(12)
[2]集成学习方法:研究综述[J]. 徐继伟,杨云. 云南大学学报(自然科学版). 2018(06)
[3]基于多示例学习框架的专利文本分类方法研究[J]. 包翔,刘桂锋,杨国立. 情报理论与实践. 2018(11)
[4]一种结合深度学习和集成学习的情感分析模型[J]. 金志刚,韩玥,朱琦. 哈尔滨工业大学学报. 2018(11)
[5]集成学习之随机森林算法综述[J]. 王奕森,夏树涛. 信息通信技术. 2018(01)
[6]CNN-ELM混合短文本分类模型[J]. 韩众和,夏战国,杨婷. 计算机应用研究. 2019(03)
[7]基于文本挖掘和自动分类的法院裁判决策支持系统设计[J]. 朱青,卫柯臻,丁兰琳,黎建强. 中国管理科学. 2018(01)
[8]基于互信息的加权朴素贝叶斯文本分类算法[J]. 武建军,李昌兵. 计算机系统应用. 2017(07)
[9]基于word2vec和LSTM的饮食健康文本分类研究[J]. 赵明,杜会芳,董翠翠,陈长松. 农业机械学报. 2017(10)
[10]中文文本聚类常用停用词表对比研究[J]. 官琴,邓三鸿,王昊. 数据分析与知识发现. 2017(03)
硕士论文
[1]基于机器学习的文本分类研究与实现[D]. 王振.南京邮电大学 2018
[2]基于并行SVM算法的中文文本分类方法研究[D]. 尹旭东.吉林大学 2018
[3]基于主题模型的汽车专利文本主题挖掘与应用研究[D]. 王龙飞.合肥工业大学 2018
[4]基于主题模型的汽车评论话题演化研究[D]. 张卫春.合肥工业大学 2017
本文编号:3505123
【文章来源】:合肥工业大学安徽省 211工程院校 教育部直属院校
【文章页数】:66 页
【学位级别】:硕士
【文章目录】:
致谢
摘要
abstract
第一章 绪论
1.1 研究背景与研究意义
1.1.1 研究背景
1.1.2 研究意义
1.2 研究现状
1.2.1 文本表示的研究现状
1.2.2 文本分类的研究现状
1.2.3 集成学习及其在文本分类方面的研究现状
1.3 研究内容与结构安排
1.3.1 研究内容
1.3.2 结构安排
第二章 相关理论和技术基础
2.1 文本预处理
2.1.1 中文文本分词
2.1.2 术语词典构建及停用词过滤
2.2 文本表示
2.2.1 主题模型
2.2.2 词向量方法
2.3 文本分类
2.4 集成学习
第三章 投诉文本分析及其文本表示
3.1 投诉文本的产生及价值
3.1.1 投诉文本的产生
3.1.2 投诉文本的价值
3.2 投诉文本的分析
3.2.1 投诉文本特征分析
3.2.2 投诉文本建模的关键问题
3.3 投诉文本建模
3.3.1 基于BTM的文本建模
3.3.2 基于Doc2vec的文本建模
3.3.3 基于BTM和 Doc2vec的文本建模
第四章 基于改进 SVM 的投诉文本集成分类
4.1 支持向量机与多分类
4.1.1 支持向量机
4.1.2 多分类方法
4.2 采用混合核的SVM改进
4.2.1 混合核函数
4.2.2 软间隔和惩罚值
4.3 基于改进SVM的投诉文本集成分类
4.3.1 原始输入的构建
4.3.2 集成分类框架
4.3.3 投诉文本的分类流程
第五章 实验研究
5.1 实验环境
5.2 实验数据准备及处理
5.2.1 数据准备
5.2.2 数据处理
5.3 实验设计及评价体系
5.3.1 实验设计
5.3.2 评价指标
5.4 实证及结果分析
5.4.1 核函数比较实验
5.4.2 分类对比实验
5.4.3 参数影响实验
5.4.4 实验结论
第六章 总结与展望
6.1 总结
6.2 工作展望
参考文献
攻读硕士学位期间的学术活动及成果情况
【参考文献】:
期刊论文
[1]基于随机森林的文本分类并行化[J]. 彭徵,王灵矫,郭华. 计算机科学. 2018(12)
[2]集成学习方法:研究综述[J]. 徐继伟,杨云. 云南大学学报(自然科学版). 2018(06)
[3]基于多示例学习框架的专利文本分类方法研究[J]. 包翔,刘桂锋,杨国立. 情报理论与实践. 2018(11)
[4]一种结合深度学习和集成学习的情感分析模型[J]. 金志刚,韩玥,朱琦. 哈尔滨工业大学学报. 2018(11)
[5]集成学习之随机森林算法综述[J]. 王奕森,夏树涛. 信息通信技术. 2018(01)
[6]CNN-ELM混合短文本分类模型[J]. 韩众和,夏战国,杨婷. 计算机应用研究. 2019(03)
[7]基于文本挖掘和自动分类的法院裁判决策支持系统设计[J]. 朱青,卫柯臻,丁兰琳,黎建强. 中国管理科学. 2018(01)
[8]基于互信息的加权朴素贝叶斯文本分类算法[J]. 武建军,李昌兵. 计算机系统应用. 2017(07)
[9]基于word2vec和LSTM的饮食健康文本分类研究[J]. 赵明,杜会芳,董翠翠,陈长松. 农业机械学报. 2017(10)
[10]中文文本聚类常用停用词表对比研究[J]. 官琴,邓三鸿,王昊. 数据分析与知识发现. 2017(03)
硕士论文
[1]基于机器学习的文本分类研究与实现[D]. 王振.南京邮电大学 2018
[2]基于并行SVM算法的中文文本分类方法研究[D]. 尹旭东.吉林大学 2018
[3]基于主题模型的汽车专利文本主题挖掘与应用研究[D]. 王龙飞.合肥工业大学 2018
[4]基于主题模型的汽车评论话题演化研究[D]. 张卫春.合肥工业大学 2017
本文编号:3505123
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3505123.html
最近更新
教材专著