当前位置:主页 > 科技论文 > 软件论文 >

基于种子词的无监督文本分类

发布时间:2018-03-23 23:37

  本文选题:话题模型 切入点:无监督文本分类 出处:《武汉大学》2017年硕士论文


【摘要】:监督型的分类模型通常需要大量标注好的文本作为训练数据,并且分类精度很大程度上取决于标注文本的数量和质量。然而,标注大量的文本是十分费力和耗时的,而且还涉及人为干预。因此从实践的角度来探讨减少标注文本所带来的代价是很重要的。降低标签获取开销的一个可能的解决方案,就是在文本分类模型中整合人类的领域知识。我们提出一种新的无监督文本分类方法叫作基于种子词的无监督文本分类(Seed Guided Topic Model),以下简称STM。在我们的模型中,不需要标注整篇文本,取而代之的是只需要标注出几个和类别相关的词,又称为"种子词"。相较于标注整篇文本,这在很大程度上减轻了对人工的需求。STM是基于LDA的模型,"话题"推断仍是文本分类的基础,不同于LDA只有一种"话题",我们会假设每篇文本都会包含两种话题:"类别相关话题",即与某一文本类别息息相关的话题;和"一般话题",即话题内容并没有明显的类别方向。每个"类别相关话题"关联到一个特定的文本类别,代表这个文本类别的具体谈语义。"一般话题"则致力于捕捉整个文本集的全局潜在语义信息。通过在两个一直为文本分类领域广泛使用的数据集上进行的实验,STM被证明始终优于现有的无监督文本分类器。对于几个词频重叠度较高的类别,STM甚至表现出比SVM这样监督型算法更优秀的分类精度,这也间接证明了无监督分类模型的良好潜力。进一步的实验表明,STM对调优参数不敏感,可以在比较广泛参数设置上都保持一个稳定的性能,这些优点使之成为一种可以被用于实际环境中的模型。
[Abstract]:Supervised classification model usually needs a large number of tagged text as training data, and the classification accuracy depends on the quantity and quality of tagged text to a great extent. However, a large number of text tagging is very laborious and time-consuming. And it also involves human intervention. Therefore, it is important to explore the cost of reducing tagged text from a practical point of view. A possible solution to reduce tag acquisition overhead, We propose a new unsupervised text classification method called seed word based unsupervised text categorization (seed Guided Topic Modeler). Instead of tagging the entire text, instead of just tagging a few category-related words, also known as "seed words," instead of tagging the entire text, This largely alleviates the need for labor. STM is based on the LDA model, and topic inference is still the basis for text categorization. Unlike LDA, where there is only one "topic", we assume that each text will contain two topics: "category-related topics", that is, topics that are closely related to a given text category; And "general topic", meaning that the topic content has no obvious category direction. Each category related topic is associated with a specific text category, "General topic" is devoted to capturing the global potential semantic information of the entire text set. STM is experimented with on two data sets that have been widely used in the field of text classification. It has always proved to be superior to existing unsupervised text classifiers. For several categories with high word frequency overlap, STMs show better classification accuracy than supervised algorithms such as SVM. Further experiments show that STM is insensitive to tuning parameters and can maintain a stable performance in a wide range of parameter settings. These advantages make it a model that can be used in real situations.
【学位授予单位】:武汉大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 李盛瑜;何文;;一种对聊天文本进行特征选取的方法研究[J];计算机科学;2007年05期

2 蒋志方;祝翠玲;吴强;;一个对不带类别标记文本进行分类的方法[J];计算机工程;2007年12期

3 赵钢;;从复杂文本中导入数据的方法[J];中国审计;2007年18期

4 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期

5 李建中,杨艳,张艳秋;并行文本管理原型系统PDoc的功能与总体框架[J];哈尔滨工业大学学报;2004年09期

6 覃晓;元昌安;彭昱忠;丁超;;基于基因表达式编程的Web文本分类研究[J];网络安全技术与应用;2009年03期

7 谌志群;;文本趋势挖掘综述[J];情报科学;2010年02期

8 王亚民;刘洋;;含附件文本的分类算法研究[J];情报杂志;2012年08期

9 江伟;潘昊;;基于优化的多核学习方法的Web文本分类的研究[J];计算机技术与发展;2013年10期

10 陈福海;C++中用>>和<<重载实现文本文件的方便存取[J];现代计算机;1997年05期

相关会议论文 前10条

1 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年

2 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年

3 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

5 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年

7 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

8 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

9 劳锦明;韦岗;;文本压缩技术研究的新进展[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年

10 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

相关重要报纸文章 前1条

1 戴洪玲;向Excel中快速输入相同文本[N];中国电脑教育报;2004年

相关博士学位论文 前10条

1 宋歌;基于聚类森林的文本流分类方法研究[D];哈尔滨工业大学;2014年

2 韩开旭;基于支持向量机的文本情感分析研究[D];东北石油大学;2014年

3 郑立洲;短文本信息抽取若干技术研究[D];中国科学技术大学;2016年

4 韩磊;汉语句义结构模型分析及其文本表示方法研究[D];北京理工大学;2016年

5 刘林;面向论坛文本的大学生情绪识别研究[D];华中师范大学;2016年

6 张博宇;基于局部特征的场景文本分析方法研究[D];哈尔滨工业大学;2015年

7 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年

8 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年

9 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年

10 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年

相关硕士学位论文 前10条

1 王轶霞;基于半监督递归自编码的情感分类研究[D];内蒙古大学;2015年

2 金传鑫;气象文本分类特征选择方法及其在MapReduce上的实现[D];南京信息工程大学;2015年

3 李少卿;不良文本及其变体信息的检测过滤技术研究[D];复旦大学;2014年

4 董秦涛;基于文本的个人情感状态分析研究[D];兰州大学;2015年

5 钟文波;搜索引擎中关键词分类方法评估及推荐应用[D];华南理工大学;2015年

6 黄晨;基于新词识别和时间跨度的微博热点研究[D];上海交通大学;2015年

7 陈红阳;中文微博话题发现技术研究[D];重庆理工大学;2015年

8 王s,

本文编号:1655752


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1655752.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户331ef***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com