当前位置:主页 > 管理论文 > 移动网络论文 >

面向客服互动微博的短文本分类方法研究

发布时间:2018-11-13 17:23
【摘要】:文本分类是数据挖掘领域内一个重要的研究课题。随着twitter逐渐占领国外社交领域,越来越多的研究开始集中到微博短文本上,对微博进行分类在舆情分析、垃圾信息过滤以及微博社区等方面有着重要的意义。对比国内,以新浪为代表的微博也开始逐渐占领人们的日常生活,由于中文的特殊性,针对中文微博短文本进行分类也提出了更大的挑战。 本文主要做了以下工作: 1.调研了文本分类(包括数据预处理、特征选择、文本表示、分类算法等)的相关技术,并针对信息增益的特征选择方法的不足之处进行了改进; 2.利用LDA将微博短文本以文档-语义分布矩阵的形式进行表示; 3.设计了信息增益与LDA相结合的微博短文本分类方法,并且实现了面向客服互动微博的分类系统。 本文在带有类别标签的客服互动微博数据上进行了验证。分别以信息增益和LDA做对比,实验结果显示,本文设计的方法在分类准确率上获得了一定的提升,说明本文的方法适用于针对客服互动微博进行分类。
[Abstract]:Text classification is an important research topic in the field of data mining. With the twitter gradually occupying the foreign social field, more and more research began to focus on Weibo short text book. It is of great significance in the analysis of public opinion, spam filtering and the community of Weibo to classify Weibo. In contrast, Weibo, represented by Sina, began to occupy people's daily life gradually. Because of the particularity of Chinese, the classification of the short text of Chinese Weibo also posed a greater challenge. The main work of this paper is as follows: 1. The related technologies of text classification (including data preprocessing, feature selection, text representation, classification algorithm, etc.) are investigated, and the shortcomings of feature selection method of information gain are improved. 2. Using LDA to express Weibo short text in the form of document-semantic distribution matrix; 3. This paper designs a short text classification method of Weibo, which combines information gain and LDA, and implements a classification system for customer service interactive Weibo. This article carries on the verification on the customer service interaction Weibo data with the category label. By comparing the information gain and LDA, the experimental results show that the method designed in this paper has achieved a certain improvement in classification accuracy, indicating that this method is suitable for customer service interaction Weibo classification.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1;TP393.092

【参考文献】

相关期刊论文 前7条

1 张晨逸;孙建伶;丁轶群;;基于MB-LDA模型的微博主题挖掘[J];计算机研究与发展;2011年10期

2 黄秀丽;王蔚;;一种改进的文本分类特征选择方法[J];计算机工程与应用;2009年36期

3 樊兴华;孙茂松;;一种高性能的两类中文文本分类方法[J];计算机学报;2006年01期

4 任克强;张国萍;赵光甫;;基于相对文档频的平衡信息增益降维方法[J];江西理工大学学报;2008年05期

5 丁兆云;贾焰;周斌;;微博数据挖掘研究综述[J];计算机研究与发展;2014年04期

6 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期

7 唐晓波;王洪艳;;基于潜在语义分析的微博主题挖掘模型研究[J];图书情报工作;2012年24期



本文编号:2329834

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2329834.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户72050***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com