呼叫中心大数据文本挖掘分析与实现
发布时间:2017-09-29 06:21
本文关键词:呼叫中心大数据文本挖掘分析与实现
更多相关文章: 呼叫中心 文本挖掘 A-LDA主题模型 分布式计算 可视化
【摘要】:伴随着呼叫中心业务和技术的不断发展,各呼叫中心积累了大量的音频和文本格式的通话记录,形成了巨大的数据资产。但与此同时,由于难以有效分析如此大量的非结构化的数据,如何挖掘这些通话记录中所包含的信息一直是学术界和企业界研究的难题。 本文以真实项目需求为导向,采用理论与实践相结合的研究方法,分别从文本挖掘技术现状调研,呼叫中心数据预处理,文本自动分类,主题事件挖掘四个方面对文本分析的相关内容进行了展开。首先,基于当前文本挖掘领域已有的技术优势和研究成果,提出本文在对呼叫中心数据进行文本挖掘工作时,可以进行算法补充或创新的理论依据。其次,针对呼叫中心数据集特点,设计一整套数据处理方案,完成对真实数据的清理和预处理工作,为后续文本挖掘算法进行数据准备。再次,为了解决呼叫中心数据集偏斜,噪音大的问题,提出改进的文本自动分类算法用于文本自动分类和一种基于关联属性的A-LDA主题模型算法用于主题挖掘。同时,针对海量数据的问题,为了提高文本分析的性能,完成了上述两种算法的MapReduce分布式计算的实现。最后,在基于前文挖掘算法的基础上,设计并实现一整套系统,将上述算法集成于系统当中,并通过网页图表形式对分析结果进行实时、快捷、友好的可视化展现。 综上所述,本文通过对文本挖掘技术在呼叫中心平台上的应用进行研究,设计实现了一个从数据预处理,分布式文本挖掘算法以及网页可视化展现的大数据文本分析系统,为呼叫中心用户提供了决策数据参考。
【关键词】:呼叫中心 文本挖掘 A-LDA主题模型 分布式计算 可视化
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1;TN99
【目录】:
- 摘要4-5
- ABSTRACT5-8
- 第一章 绪论8-16
- 1.1 课题背景及意义8-9
- 1.2 国内外研究现状9-12
- 1.2.1 文本表示的研究现状9-10
- 1.2.2 文本自动分类的研究现状10-11
- 1.2.3 主题事件发现的研究现状11-12
- 1.3 研究内容及主要工作12-13
- 1.4 论文组织结构13-16
- 第二章 基于CCTV呼叫中心的文本数据预处理16-28
- 2.1 呼叫中心数据预处理方案简介16-17
- 2.2 数据清洗17-19
- 2.3 中文文本预处理19-24
- 2.3.1 中文文本分词19-22
- 2.3.2 基于专业词典的特征选择22-24
- 2.3.3 中文文本表示24
- 2.4 数据存储方案设计24-26
- 2.5 本章小结26-28
- 第三章 分布式文本挖掘算法研究28-46
- 3.1 分布式框架研究28-33
- 3.1.1 分布式框架概述28-29
- 3.1.2 分布式框架Hadoop简介29-31
- 3.1.3 HDFS31-32
- 3.1.4 MapReduce32-33
- 3.2 文本自动分类算法33-37
- 3.2.1 朴素贝叶斯分类及其存在的问题34-35
- 3.2.2 贝叶斯分类的分布式实现35-37
- 3.3 A-LDA主题挖掘算法37-44
- 3.3.1 主题挖掘算法37-38
- 3.3.2 基于A-LDA的呼叫中心主题挖掘算法38-40
- 3.3.3 A-LDA的分布式实现40-42
- 3.3.4 A-LDA模型实验结果42-44
- 3.4 本章小结44-46
- 第四章 整体系统的设计和实现46-58
- 4.1 需求分析46-48
- 4.1.1 总体功能需求分析46-47
- 4.1.2 分模块功能需求分析47
- 4.1.3 非功能需求分析47-48
- 4.2 系统设计48-52
- 4.2.1 总体结构设计48-50
- 4.2.2 数据库设计50-51
- 4.2.3 界面设计51-52
- 4.3 系统实现52-56
- 4.3.1 开发平台52
- 4.3.2 主要技术工具52-53
- 4.3.3 模块具体实现53-56
- 4.4 本章小结56-58
- 第五章 总结与展望58-60
- 5.1 论文工作总结58
- 5.2 问题和展望58-60
- 参考文献60-64
- 致谢64-65
- 攻读学位期间发表的学术论文65
【参考文献】
中国期刊全文数据库 前6条
1 刘晓志;黄厚宽;尚文倩;;带专业词库的特征选择[J];北京交通大学学报;2006年02期
2 李保利,俞士汶;话题识别与跟踪研究[J];计算机工程与应用;2003年17期
3 陈莉萍;杜军平;;突发事件热点话题识别系统及关键问题研究[J];计算机工程与应用;2011年32期
4 周昭涛,卜东波,程学旗;文本的图表示初探[J];中文信息学报;2005年02期
5 洪宇;张宇;刘挺;李生;;话题检测与跟踪的评测及研究综述[J];中文信息学报;2007年06期
6 闫光辉;赵红运;任亚缙;陈勇;;基于时间特性的微博热门话题检测算法研究[J];计算机应用研究;2014年01期
,本文编号:940471
本文链接:https://www.wllwen.com/kejilunwen/wltx/940471.html