当前位置:主页 > 科技论文 > 软件论文 >

基于LDA模型的移动投诉文本热点话题识别

发布时间:2018-03-03 23:04

  本文选题:移动投诉 切入点:k-means 出处:《数据分析与知识发现》2017年02期  论文类型:期刊论文


【摘要】:【目的】运用中文信息处理和话题识别与追踪的方法,从大量移动投诉文本中找出有价值的信息。【方法】从分析投诉文本的特点入手,使用k-means先对文本聚类。利用LDA对每个类进行建模,提取话题,并从词频、词跨度和词长三方面计算每个话题中词的权值,把权重最大的词作为该话题的标签,并计算每个话题的文档分布概率均值。对具有相同标签的话题,先按照均值最大的原则去掉重复标签话题,再对所有话题计算文档支持率,并将文档支持率作为话题的热度,通过热度区分热点话题和一般话题。【结果】对投诉文本进行时间上的建模,通过对比一般话题和热点话题,得出热点话题的支持文档率至少是一般话题的3倍,支持文档率变化趋势也比一般话题高,说明本文算法是有效的。【局限】没有考虑到话题之间的语义关系。【结论】利用LDA模型对移动投诉话题检测初探的方法是比较合理和有效的,对今后此领域的研究具有一定的借鉴意义。
[Abstract]:[objective] to find out valuable information from a large number of mobile complaint texts by means of Chinese information processing and topic recognition and tracking. [methods] starting with the analysis of the characteristics of complaint texts, Using k-means to cluster the text first. Using LDA to model each class, extract the topic, and calculate the word weight of each topic from three aspects of word frequency, word span and word length, take the words with the largest weight as the label of the topic. The document distribution probability mean of each topic is calculated. For the topic with the same label, the repetitive tagged topic is removed according to the principle of maximum mean value, then the document approval rate is calculated for all topics, and the document approval rating is regarded as the hot spot of the topic. Using heat to distinguish hot topic from general topic. [results] the time model of complaint text is established. By comparing general topic with hot topic, the supporting document rate of hot topic is at least three times as high as that of general topic. The trend of supporting document rate changes is also higher than that of general topics, It shows that this algorithm is effective. [limitation] does not take into account the semantic relationship between topics. [conclusion] the method of using LDA model to detect mobile complaint topics is reasonable and effective. It has certain reference significance to the future research in this field.
【作者单位】: 杭州电子科技大学计算机学院;中国计量大学;
【基金】:国家自然科学基金青年基金项目“引入涉身认知机制的汉语隐喻计算模型及其实现”(项目编号:61103101);国家自然科学基金青年基金项目“基于马尔科夫树与DRT的汉语句群自动划分算法研究”(项目编号:61202281) 教育部人文社会科学研究青年基金项目“面向信息处理的汉语隐喻计算研究”(项目编号:10YJCZH052)的研究成果之一
【分类号】:TP391.1

【参考文献】

相关期刊论文 前7条

1 关鹏;王曰芬;;科技情报分析中LDA主题模型最优主题数确定方法研究[J];现代图书情报技术;2016年09期

2 徐佳俊;杨樝;姚天f ;付中阳;;基于LDA模型的论坛热点话题识别和追踪[J];中文信息学报;2016年01期

3 伍万坤;吴清烈;顾锦江;;基于EM-LDA综合模型的电商微博热点话题发现[J];现代图书情报技术;2015年11期

4 唐晓波;向坤;;基于LDA模型和微博热度的热点挖掘[J];图书情报工作;2014年05期

5 张培晶;宋蕾;;基于LDA的微博文本主题建模方法研究述评[J];图书情报工作;2012年24期

6 张晨逸;孙建伶;丁轶群;;基于MB-LDA模型的微博主题挖掘[J];计算机研究与发展;2011年10期

7 吴夙慧;成颖;郑彦宁;潘云涛;;K-means算法研究综述[J];现代图书情报技术;2011年05期

相关硕士学位论文 前1条

1 朱颖;基于微博的热点话题发现[D];西南大学;2014年

【共引文献】

相关期刊论文 前10条

1 崔金栋;杜文强;关杨;罗文达;;微博用户信息个性化推荐主题模型LDA演化分析研究[J];情报科学;2017年08期

2 李婷;陈元春;;基于核距离的聚类算法分析介绍[J];科技展望;2017年21期

3 张申旭;黄震华;;基于多特征的微博热点主题发现算法的研究[J];现代计算机(专业版);2017年19期

4 梁珊;邱明涛;马静;;基于LDA-WO混合模型的微博话题有序特征抽取研究[J];情报科学;2017年07期

5 杜秀英;;基于聚类与语义相似分析的多文本自动摘要方法[J];情报杂志;2017年06期

6 张斌;彭其渊;;基于KFAV的中国铁路货运客户细分方法研究[J];交通运输系统工程与信息;2017年03期

7 孟佳伟;孙红;;基于Hadoop平台的K-means算法优化综述[J];软件导刊;2017年06期

8 马林进;万良;马绍菊;杨婷;易辉凡;;基于词袋模型的分布式拒绝服务攻击检测[J];计算机应用;2017年06期

9 乔琳;胡涛;朱金悦;;基于最小生成树的K-means驴友结伴推荐算法研究[J];现代商业;2017年16期

10 邓丹君;姚莉;;基于微博标签和LDA的微博主题提取算法[J];计算机与数字工程;2017年05期

相关硕士学位论文 前3条

1 王晶;基于社交媒体的热点主题挖掘及主题演化分析[D];西南大学;2016年

2 赵宝钰;基于内外部数据结合的港口客户风险控制系统研究[D];北京交通大学;2016年

3 伍万坤;面向社交商务的大数据分析方法研究[D];东南大学;2015年

【二级参考文献】

相关期刊论文 前10条

1 刘彤;杨冠灿;蒋继娅;郭鲁钢;;基于多重关系的专利网络演化特征与动态分析——以锂离子电池领域为例[J];情报学报;2014年12期

2 张晗;徐硕;乔晓东;;融合科技文献内外部特征的主题模型发展综述[J];情报学报;2014年10期

3 范云满;马建霞;;基于LDA与新兴主题特征分析的新兴主题探测研究[J];情报学报;2014年07期

4 唐晓波;向坤;;基于LDA模型和微博热度的热点挖掘[J];图书情报工作;2014年05期

5 郭红钰;;基于信息熵理论的特征权重算法研究[J];计算机工程与应用;2013年10期

6 张培晶;宋蕾;;基于LDA的微博文本主题建模方法研究述评[J];图书情报工作;2012年24期

7 赵迎光;安新颖;李勇;贾晓峰;;一种基于生命周期理论的文献热点发现方法——以肿瘤领域为例[J];现代图书情报技术;2012年11期

8 王李冬;魏宝刚;袁杰;;基于概率主题模型的文档聚类[J];电子学报;2012年11期

9 蔡淑琴;张静;王e,

本文编号:1563066


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1563066.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ad36e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com