当前位置:主页 > 科技论文 > 软件论文 >

基于主动学习的文本分类系统设计与实现

发布时间:2022-01-21 14:40
  随着信息时代的到来,互联网得到了迅速发展,文本数据开始爆发式增长,丰富的信息背后蕴含着巨大的价值。文本分类技术可以有效的整理和组织文本,提高信息检索的效率,挖掘出文本更具价值的深层信息,而且随着数据收集和存储技术的发展,收集海量文本数据已经不再是难题。然而,目前文本分类技术的实际应用仍然局限于大公司或是研究机构,这是因为传统基于监督学习的文本分类需要大量已标注样本,而对大量文本数据进行标注的人工成本过高,使用随机选取部分数据获取标记的方法不仅是对数据资源的浪费,也会影响最终的分类准确率,因此构建一种能够有效利用未标注数据集的文本分类系统具有重要的实际应用价值。为了解决上述问题,本文以主动学习为切入点,设计并实现了一种基于主动学习的文本分类系统,本文完成的主要工作包括:(1)本文基于主动学习算法,采用RCNN模型作为分类器,提出了一种基于主动学习的文本分类框架。同时结合数据挖掘技术和深度文档向量模型,改进了初始样本选择算法,能从未标注数据集中选取出更能代表样本空间的样本,通过对比试验证明改进后的初始样本选择算法能明显提升了分类器对未标注样本的判别能力,提高了主动学习算法的效率。最终实验结... 

【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校

【文章页数】:76 页

【学位级别】:硕士

【部分图文】:

基于主动学习的文本分类系统设计与实现


图2-2SVM算法示意图??

流程图,文本分类,框架,流程图


V??图3-1文本分类框架流程图??如图3-1所示,该图展示了本章所设计的基于主动学习的文本分类框架的完??整处理流程,从图中可以看出该文本分类框架主要由初始样本选择和主动学习迭??代训练两部分组成,同时还需要人工参与框架的训练过程。??初始样本选择阶段是框架通过初始样本选择算法从未标注样本集合选出最??能代表文本数据集的部分样本,并交由研究人员获取样本标注的过程,后半部分??为基于主动学习算法的迭代训练流程,而主动学习算法所采用的初始己标注训练??样本集是由初始样本选择阶段得到的标注样本集,每轮迭代中根据分类器对未标??注样本集的预测结果从中选取最有价值样本交由研究人员标注后加入标注样本??集,直到训练完成得到标注样本集和分类模型。综上,该文本分类框架的数据流??通图如图3-2所示,通过数据流通图可以清晰地了解框架对文本数据集的处理流??程

模型结构,文档


本数据集划分,但是计算机不能直接理解由自然语言构成的中文语料,因此首先??需要利用文本表示算法获取文本数据集的文档向量,使计算机能够色接理解并处??理,即本文改进的初始选择算法的流程如图3-3所示。??文Si集—?文档向s化—?文■类—??—?舰磁辦??????1____??图3-3初始样本选择算法??由图3-3可知,本文设计的初始选择算法主要分为文本向量化、文本聚类、??代表性样本选择三个部分,且前一部分的输出作为下一阶段的输入,最终得到可??用于主动学习训练的初始标注样本集,下面将介绍每一部分的实现细节:??1)文档的向量表示简单来说就是将每篇文档表示计算机能够理解的形式,??通常为包含足够多文档主题信息的连续稠密型向量[33]。目前文本分类相关技术??研究中,针对词向量的研究比较多,而针对文档向量的研究较少,因为词是中文??文本中最小的包含信息的单位。目前获取文档向量的方法通常是利用如??Word2Vec等文本向量化方法获取单个词的向量化表示,在词向量的基础上获取??整篇文档的向量表示[[|3]15]。然而文档中通常包含很多个词语,通过单个词向量获??取整篇文档的有效的表达是目前研究中的难题之一

【参考文献】:
期刊论文
[1]基于深度主动学习的磁片表面缺陷检测[J]. 姚明海,陈志浩.  计算机测量与控制. 2018(09)
[2]基于深度学习的文本分类研究进展[J]. 刘婷婷,朱文东,刘广一.  电力信息与通信技术. 2018(03)
[3]基于密度最大值的K-means初始聚类中心点算法改进[J]. 刘闯,陈桂芬.  数字技术与应用. 2017(11)
[4]基于朴素贝叶斯的文本分类研究综述[J]. 贺鸣,孙建军,成颖.  情报科学. 2016(07)
[5]基于Word2Vec的一种文档向量表示[J]. 唐明,朱磊,邹显春.  计算机科学. 2016(06)
[6]一种基于SVM和主动学习的图像检索方法[J]. 王新建,罗光春,秦科,陈爱国,赖云一.  计算机应用研究. 2016(12)
[7]基于半监督的SVM迁移学习文本分类算法[J]. 谭建平,刘波,肖燕珊.  无线互联科技. 2016(04)
[8]聚类算法综述[J]. 伍育红.  计算机科学. 2015(S1)
[9]主动学习算法综述[J]. 刘康,钱旭,王自强.  计算机工程与应用. 2012(34)
[10]特征选择方法综述[J]. 姚旭,王晓丹,张玉玺,权文.  控制与决策. 2012(02)

硕士论文
[1]文本分类系统设计与实现[D]. 张琛馨.中山大学 2015



本文编号:3600454

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3600454.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1d133***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com