当前位置:主页 > 科技论文 > 自动化论文 >

中文推送短消息文本分类技术研究与实现

发布时间:2020-06-04 04:29
【摘要】:随着近年通信技术的大幅进步,以及智能手机功能的逐步完善与用户量的日益增多,移动互联网行业得以极速发展,并已广泛融入于大众生活中,从而产生大量的用户推送信息。这些推送信息可反映出相关行业的发展情况,然而其内容过于繁杂,难以进行管理。如何对这些信息进行有效过滤和整理,挖掘其中潜在价值成为一个亟需解决的问题。本文主要研究了针对中文推送短消息的自动分类问题,根据文本数据的特点实现并改进了分类算法。首先研究了文本预处理的相关技术,选用合适的分词方法,对某公司的推送短消息文本进行分词处理。完成分词处理以后,使用卡方校验的方式选择文本特征,将降维的文本转化为稀疏向量的形式。之后通过kNN算法对四种文本相似性计算方法进行实验对比,根据实验结果选择了余弦相似度大小作为分类过程中查找近邻点的依据。然后,分析了kNN和决策树两种常用分类算法的优势与不足。由于kNN算法计算繁琐,耗时较长,本文提出了一种结合决策树的改进kNN文本分类算法TREE-kNN。通过CART决策树,完成文本数据的预分类,评价每个叶子节点的分类效果。对于评价较低的节点中对应的样本,它的比较范围缩小为仅包含该叶子节点所覆盖类别下的子训练集,再对其使用改进的kNN算法进行分类。通过对训练集中样本空间的划分,缩小了kNN分类过程中与待分类样本比较的训练样本范围,减少了余弦相似度的计算次数,从而提高分类速度。为了解决k值较大情况下提速不明显的问题,本文引入了类中心法优化了近邻样本的查询过程。实验结果显示,TREE-kNN算法的分类速度与传统kNN算法相比有了明显提升,分类结果的正确率也得到了提高。最后,本文基于上述分类方法设计和实现了针对大批量推送短消息数据的文本挖掘系统,用于统计分类后的文本数量分布情况,并对统计数据进行可视化处理。借助Spark平台,以并行化方式实现了文本特征选择和文本向量化;将文本分词,文本分类过程拆分成多个数据分区并行执行,提高了任务执行效率。文本分类完成后,利用Spark统计交易类文本的条数的时间分布和电商物流类文本条数的空间分布情况,保存到数据库中。同时采用Web技术,将统计数据的查询方法封装到Dubbo服务中,由系统的控制器模块向数据查询服务发起请求,将返回的统计数据发送到前端,前端利用Echarts把传来的数据绘制成图的形式渲染到页面中。通过这种方式,清楚的展现出了推送短消息文本的时空分布规律。
【图文】:

对比图,对比图,效率,方法


西安电子科技大学硕士学位论文12图2.3 分词效率对比图实验结果显示,分词速度最快的前几位由高到低分别是:Ansj 的 BaseAnalysis 方法,Ansj 的 ToAnalysis 方法,HanLP 的 SpeedTokenizer 方法,,HanLP 的 Viterbi 方法,Jieba 分词器。2.4 文本分词技术选择F 值是兼顾查准率和召回率的综合性评价指标,它能够更全面的反映出分词结果的好坏程度,因此本文使用 F 值作为评价分词性能的参考标准。由于 HanLP 的 Viterbi方法在分词速度上明显快于 F 值最高的两种 NLP 分词方法

初始分布,近邻,样本,最近邻


近邻样本初始分布图
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP18;TP391.1

【相似文献】

相关期刊论文 前10条

1 赵国栋;李伟;张政;王昊;;一种基于语音识别与文本分类技术的非法广播判别方法[J];中国无线电;2020年01期

2 高影繁;王惠临;徐红姣;;跨语言文本分类技术研究进展[J];情报理论与实践;2010年11期

3 张春红;;文本分类技术应用于学科导航分类的可行性探讨[J];情报科学;2009年07期

4 周文霞;;现代文本分类技术研究[J];武警学院学报;2007年12期

5 高洁,吉根林;文本分类技术研究[J];计算机应用研究;2004年07期

6 陈庄;杨春玉;;面向监理工程的文本分类技术研究[J];重庆理工大学学报(自然科学);2017年10期

7 张浩;汪楠;;文本分类技术研究进展[J];科技信息(科学教研);2007年23期

8 胡恬;王敬;;中文文本分类技术的研究[J];科技咨询导报;2006年09期

9 邓丁朋;周亚建;池俊辉;李佳乐;;短文本分类技术研究综述[J];软件;2020年02期

10 浦海晨,万晓冬;一种基于文本分类技术的邮件过滤系统设计[J];科技广场;2005年06期

相关会议论文 前4条

1 张娟;王慧锋;;文本分类技术在海量金融信息处理中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年

2 陈庆轩;郑德权;赵铁军;;多分类器融合的文本分类技术研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年

3 严春美;郭熙铜;陈晓东;;基于电子病历的智能诊断系统研究[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年

4 贺瑞芳;钟绍春;程晓春;;教学资源的个性化搜索引擎研究[A];第二届全国学生计算语言学研讨会论文集[C];2004年

相关重要报纸文章 前1条

1 周东;数威:创业之路有点难[N];中国高新技术产业导报;2005年

相关博士学位论文 前4条

1 井奚月;文本分类技术在文献筛检及质性研究中的应用研究[D];天津医科大学;2019年

2 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年

3 郝秀兰;文本分类技术与应用研究[D];复旦大学;2008年

4 杨创新;基于机器学习的高性能中文文本分类研究[D];华南理工大学;2009年

相关硕士学位论文 前10条

1 金旭;面向非对称和多标签的文本分类技术研究[D];南京邮电大学;2019年

2 王旌舟;中文文本分类技术研究及应用[D];西南交通大学;2019年

3 郑腾;基于LDA特征扩展的短文本分类技术研究[D];武汉纺织大学;2019年

4 蔡九鸣;中文推送短消息文本分类技术研究与实现[D];西安电子科技大学;2019年

5 付豪;基于同异性迁移学习的短文本分类技术研究与应用[D];北京邮电大学;2019年

6 兴艳云;基于机器学习的文本分类技术研究[D];青岛科技大学;2019年

7 陈震鸿;基于深度学习的多任务文本分类技术研究[D];华南理工大学;2018年

8 张赛北;基于Spark的文本分类技术的研究与实现[D];华中科技大学;2017年

9 石逸轩;基于深度学习的文本分类技术研究[D];北京邮电大学;2018年

10 姜松润;手机取证中基于维基百科的文本分类技术研究与实现[D];北京邮电大学;2018年



本文编号:2695894

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2695894.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b1b82***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com