中文垃圾短文本的自动识别研究
本文选题:短文本 + 短信 ; 参考:《郑州大学》2017年硕士论文
【摘要】:当前社会上用于信息交互的各种社交平台、即时通讯工具日益普及。这些用来信息交流的平台工具目前主要使用短文本作为信息传播与交互的载体,其方便、快捷、高效的特点适合当今信息化、快节奏的生活。所谓短文本主要是指手机短信、微博、商品评论、论坛帖子等一类长度较短,字数有限的文本。在该类短文本中,往往存在着大量的违反信息交互平台使用规定的违法的垃圾类文本,例如垃圾短信、广告微博、虚假评论等。由于短文本长度较短,字数有限,编辑来源广泛且内容编辑存在诸多不规范。因此,对其进行二分类,识别其中的垃圾类短文本时将会面临三个问题:(1)数据噪声大;(2)训练数据集不平衡;(3)如果直接采用基于词表的向量空间模型来表示短文本,将会导致特征向量过于稀疏且维度较高。针对以上三个问题,本文主要进行了以下研究:1)提出了适用于短文本的预处理方法,对短文本数据进行规范化处理,主要包括“错别字纠正”、“繁体字转换”、“大小写字母的转换”、“同类信息的统一化表示”等,在一定程度上减少数据集中存在的噪声。2)从短文本内容的编辑语法、用词特点等及非内容的结构属性,即多个角度来提取特征,避免采用基于词表的向量空间模型表示短文本时,特征向量过于稀疏且维度较高。3)提出了随机森林与Adaboost相结合的“随机森林+Adaboost”集成分类方法,该方法将随机森林作为Adaboost算法的基分类器,用来降低数据噪声及数据不平衡所带来的影响。由于短信与商品评论在内容上具有较大相似性,故本文通过选取短信、商品评论作为研究对象,采用本文所提出的方法进行垃圾短文本的识别研究工作。最后,在由中国移动提供的大量短信数据集及COAE 2015任务四的评论数据集上进行实验,结果表明本文所提出的方法是有效的,而且“随机森林+Adaboost”集成算法相对于其它分类算法具备一定的优越性。
[Abstract]:At present, various social platforms for information exchange, instant messaging tools are increasingly popular. These platform tools for information exchange currently mainly use short text book as the carrier of information dissemination and interaction. Its convenient, fast and efficient characteristics are suitable for today's information-based, fast-paced life. Short text mainly refers to text messages, Weibo, commodity reviews, forum posts and other short, limited words. In this kind of short text, there are often a large number of illegal spam texts, such as spam SMS, advertising Weibo, false comments and so on, which violate the rules of information exchange platform. Due to the short length and limited number of words, the short text has a wide range of editing sources and a lot of irregularities in content editing. Therefore, if we use vector space model based on thesaurus to express the short text, we will face three problems when we classify it two times, and we will face three problems: 1) 1) the data noise is very large and 2) the training data set is unbalanced (3) if we use the vector space model based on word table directly to express the short text, The feature vector is too sparse and the dimension is high. In view of the above three problems, this paper mainly carries on the following research: 1) put forward the preprocessing method suitable for short text, and normalizes the data of short text, mainly includes "correcting the wrong character", "converting the traditional characters", "conversion of letters between case and case", "uniform representation of similar information", etc., to a certain extent, reduces the noise existing in the data set) from the editorial syntax of short text content, the features of words, etc., and the structural attributes of non-content, etc. That is, to extract features from multiple angles and avoid using vector space model based on word table to represent short text, the feature vector is too sparse and the dimension is high. 3) an integrated classification method of "random forest Adaboost", which combines stochastic forest and Adaboost, is proposed. In this method, random forest is used as the base classifier of Adaboost algorithm to reduce the effect of data noise and data imbalance. Because of the similarity between short message and commodity comment, this paper chooses short message and commodity comment as the object of study, and adopts the method proposed in this paper to study the identification of short junk text. Finally, experiments are carried out on a large number of short message data sets provided by China Mobile and the comment data set of COAE 2015 Task 4. The results show that the proposed method is effective. Moreover, the "random forest Adaboost" ensemble algorithm has some advantages over other classification algorithms.
【学位授予单位】:郑州大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 陈敏,汤晓安;在Microsoft Access中引入文本文件[J];微型电脑应用;1995年02期
2 李盛瑜;何文;;一种对聊天文本进行特征选取的方法研究[J];计算机科学;2007年05期
3 蒋志方;祝翠玲;吴强;;一个对不带类别标记文本进行分类的方法[J];计算机工程;2007年12期
4 赵钢;;从复杂文本中导入数据的方法[J];中国审计;2007年18期
5 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期
6 李建中,杨艳,张艳秋;并行文本管理原型系统PDoc的功能与总体框架[J];哈尔滨工业大学学报;2004年09期
7 覃晓;元昌安;彭昱忠;丁超;;基于基因表达式编程的Web文本分类研究[J];网络安全技术与应用;2009年03期
8 谌志群;;文本趋势挖掘综述[J];情报科学;2010年02期
9 王亚民;刘洋;;含附件文本的分类算法研究[J];情报杂志;2012年08期
10 江伟;潘昊;;基于优化的多核学习方法的Web文本分类的研究[J];计算机技术与发展;2013年10期
相关会议论文 前10条
1 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
2 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年
3 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年
7 Wen Feng;;A Novel Lips Detection Method Combined Adaboost Algorithm and Camshift Algorithm[A];2012年计算机应用与系统建模国际会议论文集[C];2012年
8 张超;苗振江;;基于AdaBoost的面部信息感知[A];第十三届全国信号处理学术年会(CCSP-2007)论文集[C];2007年
9 郭翌;汪源源;;基于Adaboost算法的颈动脉粥样硬化判别方法[A];中国仪器仪表学会第十一届青年学术会议论文集[C];2009年
10 张红梅;高海华;王行愚;;抑制样本噪声的AdaBoost算法及其在入侵检测中的应用[A];2007年中国智能自动化会议论文集[C];2007年
相关重要报纸文章 前1条
1 戴洪玲;向Excel中快速输入相同文本[N];中国电脑教育报;2004年
相关博士学位论文 前10条
1 宋歌;基于聚类森林的文本流分类方法研究[D];哈尔滨工业大学;2014年
2 韩开旭;基于支持向量机的文本情感分析研究[D];东北石油大学;2014年
3 郑立洲;短文本信息抽取若干技术研究[D];中国科学技术大学;2016年
4 韩磊;汉语句义结构模型分析及其文本表示方法研究[D];北京理工大学;2016年
5 刘林;面向论坛文本的大学生情绪识别研究[D];华中师范大学;2016年
6 张博宇;基于局部特征的场景文本分析方法研究[D];哈尔滨工业大学;2015年
7 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
8 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
9 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
10 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年
相关硕士学位论文 前10条
1 毕银龙;中文垃圾短文本的自动识别研究[D];郑州大学;2017年
2 王轶霞;基于半监督递归自编码的情感分类研究[D];内蒙古大学;2015年
3 金传鑫;气象文本分类特征选择方法及其在MapReduce上的实现[D];南京信息工程大学;2015年
4 李少卿;不良文本及其变体信息的检测过滤技术研究[D];复旦大学;2014年
5 董秦涛;基于文本的个人情感状态分析研究[D];兰州大学;2015年
6 钟文波;搜索引擎中关键词分类方法评估及推荐应用[D];华南理工大学;2015年
7 黄晨;基于新词识别和时间跨度的微博热点研究[D];上海交通大学;2015年
8 陈红阳;中文微博话题发现技术研究[D];重庆理工大学;2015年
9 王s,
本文编号:1885433
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1885433.html