呼叫中心文本分类系统的设计与实现
发布时间:2021-10-15 04:03
随着城市智能化的发展,政府部门为了了解民生诉求普遍建立了呼叫中心,并成为群众表达民意诉求的重要渠道。民生诉求文本包含了丰富的当地热点事件和诉求信息,这些文本数据往往长短不一、包含较大信息量,伴随着数据量的逐渐增大,如何发现群众关心的热点诉求成了管理者关注的焦点。本文利用文本分类技术,对呼叫中心的诉求数据进行分析,设计实现了一个从数据采集、数据预处理、文本数据分类和可视化展示为一体的文本分类系统。本文主要工作包括:(1)数据采集,采集分散在不同数据源的原始数据。论文设计合理的数据存储格式,完成数据的初步录入。呼叫中心的数据源每天都有更新汇总,因此后期采用增量采集的模式,完成对新数据的增量录入。(2)数据预处理,论文设计实现了一套数据初步清洗的方法,完成对真实数据的清洗和过滤。同时针对数据中的诉求文本设计实现了中文文本处理流程,包括中文分词、去除停用词、特征选择和文本表示等步骤。在文本特征表示阶段,针对传统TFIDF算法忽略特征类内和类间的分布的缺陷,结合卡方统计和信息熵提出改进的TFIDF-T算法;同时研究了基于词向量Word2vec的文本表示,提出了词向量平均的AW
【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:77 页
【学位级别】:硕士
【部分图文】:
诉求文本语料示意
set_val转换配置
update转换配置
本文编号:3437388
【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:77 页
【学位级别】:硕士
【部分图文】:
诉求文本语料示意
set_val转换配置
update转换配置
本文编号:3437388
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3437388.html