基于多示例多标签分类的Web文本挖掘研究
本文选题:多示例学习 + 最小二乘双支持向量机 ; 参考:《天津理工大学》2017年硕士论文
【摘要】:随着网络技术的飞速发展,互联网信息资源增长迅猛,对海量数据的分类提出了进一步的要求。文本分类作为文本挖掘最重要的研究方向,在现实生活中有着广泛的应用。研究如何对文本进行有效的表示、有效的查找信息成为现在文本挖掘领域迫在眉睫的研究课题。现实生活中多示例多标签文本大量存在,对文本分类研究提出了新的挑战。传统的文本分类基本是单示例单标签分类,无法对多语义、多类别的文本进行准确的处理,本文提出多示例多标签学习对多标签文本进行准确有效的分类。本文主要研究了以下几个方面的内容:(1)使用多示例多标签学习框架进行中文文本分类。多示例学习和多标签学习分别是针对语义歧义和多类别学习问题提出的,多示例多标签学习(MIML)主要针对图像分类、网页检索等的研究领域并取得了很好的成果,本文将多示例多标签学习(MIML)方法应用于中文文本分类,针对中文特有的结构及文本的多类别特征,改进MIML学习框架,使之更适用于中文文本分类,为中文文本分类提出了一种新的思路。(2)文本表示作为文本分类的一个关键步骤,对于后续分类器的学习性能有很大的影响。本文针对中文文本语义丰富的特点使用多示例句子包进行文本表示。目前主流的文本表示方法有VSM,这种方法以词作为文本切分粒度,对特征项进行了独立性假设,词间的语义信息丢失。针对语义缺失问题,本文引入多示例文本表示,使用多示例包对文本进行处理,使用句子作为文本表示的最小单位,使词间的语义信息得以保留。数据表示阶段使用多示例句子包的形式进行文本表示,避免基于语义独立性假设带来的语义损失,并进一步优化处理使其成为主题包,缩短了文本处理的时间。(3)在文本分类阶段使用改进的LSTSVM多标签分类器进行分类。对于使用多示例主题包表示的文本,基于退化策略将多示例多标签数据通过聚类处理成为单示例多标签学习,使用改进的最小二乘双支持向量机(LSTSVM)多标签分类器对文本进行分类。最小二乘双支持向量机把一个大型QPP问题转化成两个小型QPP问题,计算速度得到了提升并降低了计算复杂度。(4)根据改进的算法设计构造多示例多标签文本分类系统,使用reuter-21578新闻语料、Emotion数据集和同济大学的中文语料库数据集对改进的算法进行实验验证和结果分析,实验结果表明改进的算法在评价指标上优于目前存在的多标签分类算法。
[Abstract]:With the rapid development of network technology and the rapid growth of Internet information resources, the classification of massive data has been further required. Text classification, as the most important research direction of text mining, is widely used in real life. How to effectively represent text and find information effectively becomes an urgent research topic in the field of text mining. In real life, there are a lot of multi-example and multi-label text, which brings a new challenge to the research of text classification. Traditional text categorization is a single example and single label classification, which can not deal with multi-semantic and multi-category text accurately. This paper proposes multi-example multi-label learning to classify multi-label text accurately and effectively. This paper mainly studies the following aspects: 1) using multi-example multi-label learning framework to classify Chinese text. Multi-example learning and multi-label learning are proposed for semantic ambiguity and multi-class learning respectively. Multi-example multi-label learning (MIMLL) mainly focuses on image classification, web search and other research areas, and has achieved good results. In this paper, multi-example multi-label learning (MIML) method is applied to Chinese text classification, and the MIML learning framework is improved to make it more suitable for Chinese text classification. As a key step of text categorization, a new approach to Chinese text categorization is proposed, which has great influence on the learning performance of subsequent classifiers. In view of the rich semantic characteristics of Chinese text, this paper uses multiple sample sentence packets for text representation. At present, VSM is the main text representation method, which takes words as the granularity of text segmentation, and assumes the independence of feature items, and the semantic information between words is lost. In this paper, we introduce multi-sample text representation, use multi-sample packages to process the text, and use sentences as the smallest unit of text representation, so that the semantic information between words can be preserved. The data presentation phase uses multiple sample sentence packages for text representation to avoid semantic loss based on semantic independence assumptions and to further optimize processing to make it a topic package. The text processing time is shortened. 3) the improved LSTSVM multi-label classifier is used in the text classification stage. For text represented by multi-sample topic packages, multi-sample multi-tag data is clustered into single-sample multi-tag learning based on degradation strategy. An improved least squares double support vector machine (LSTSVM) multi-label classifier is used to classify text. The least square double support vector machine transforms a large QPP problem into two small QPP problems. The computational speed is improved and the computational complexity is reduced. (4) based on the improved algorithm, a multi-example multi-label text classification system is designed and constructed. Using the reuter-21578 news corpus and the Chinese corpus data set of Tongji University, the improved algorithm is verified and analyzed. The experimental results show that the improved algorithm is superior to the existing multi-label classification algorithm in evaluation index.
【学位授予单位】:天津理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1;TP393.09
【相似文献】
相关期刊论文 前10条
1 陈朵玲,胡肖锋;基于Web文本挖掘技术的企业竞争情报系统研究[J];情报杂志;2005年06期
2 孙铁利;王圆;;一个基于人工神经网络的Web文本过滤系统[J];计算机时代;2006年06期
3 李光敏;许新山;熊旭辉;;Web文本情感分析研究综述[J];现代情报;2014年05期
4 刘明吉;饶一梅;王秀峰;黄亚楼;;基于模糊近似度的Web文本过滤模型[J];计算机科学;2001年12期
5 王序臻;;Web文本层次分类方法研究[J];温州职业技术学院学报;2008年03期
6 邹志华;田生伟;禹龙;冯冠军;;改进的维吾尔语Web文本后缀树聚类[J];中文信息学报;2013年02期
7 王景中;郭兆亮;;基于分层的中文Web文本内容过滤研究[J];网络安全技术与应用;2012年11期
8 曹建芳;王鸿斌;;一种新的基于SVM-KNN的Web文本分类算法[J];计算机与数字工程;2010年04期
9 李泽峰;王煜;;基于RBF神经网络和关联规则的Web文本分类规则获取方法[J];图书情报工作;2006年10期
10 王健;韩广琳;;基于统计的Web文本自动摘要技术分析[J];福建电脑;2007年08期
相关会议论文 前3条
1 刘斓冰;魏桂英;;Web文本信息挖掘技术[A];全国第十届企业信息化与工业工程学术年会论文集[C];2006年
2 于海燕;陈晓江;冯健;房鼎益;;Web文本内容过滤方法的研究[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
3 袁志坚;贾焰;;基于误差反馈的高速Web文本流快速近似分类[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
相关博士学位论文 前2条
1 闫季鸿;基于Web文本和知识图谱的实体摘要[D];华东师范大学;2016年
2 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年
相关硕士学位论文 前10条
1 夏彬彬;基于Web文本挖掘的情感分析研究[D];桂林电子科技大学;2016年
2 陈利鹏;Web文本分类关键技术研究与应用[D];西安电子科技大学;2015年
3 邱超;基于Web文本的文物知识图谱自动生成方法研究[D];西北大学;2016年
4 王丽辉;基于多示例多标签分类的Web文本挖掘研究[D];天津理工大学;2017年
5 于帅;中文Web文本情感倾向性分析技术的研究[D];哈尔滨工程大学;2013年
6 尹丽玲;基于人工免疫算法的Web文本挖掘研究[D];哈尔滨工程大学;2010年
7 郭凯;面向Web文本的数据清洗关键技术的研究与实现[D];西安电子科技大学;2009年
8 邓琨;基于Rough集的Web文本分类及其信息抽取研究[D];南昌大学;2007年
9 桂海霞;利用表格等信息的Web文本分类研究与实现[D];安徽理工大学;2008年
10 张谌奇;支持向量机在Web文本分类中的分析与应用[D];暨南大学;2008年
,本文编号:2044137
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2044137.html