当前位置:主页 > 管理论文 > 统计学论文 >

基于模糊决策树的文本分类规则抽取

发布时间:2016-08-29 11:23

  本文关键词:基于模糊决策树的文本分类规则抽取,由笔耕文化传播整理发布。


计算机应用 天津大学 王煜 模糊决策树 文本分类

第"$卷第)期

!

"##$年)月

文章编号:&##&%*#,&("##$)#)%&(+’%#’

计算机应用

[67J3GBK:JJNL5/GL60I

!

W6N-"$<6-)\3N2"##$

基于模糊决策树的文本分类规则抽取

"

王!煜&,,王正欧&

(&-天津大学系统工程研究所,天津+###)";"-河北大学数学与计算机学院,河北保定#)&##")

(./0123#+"(4&"(-567)

摘!要:提出一种合并分枝的模糊决策树文本分类方法对相似文本类进行分类,并可抽取出分类精度较高的模糊分类规则。首先研究改进了的!"统计量,并根据改进的!"统计量对文本的特征词条进行聚合,有效地降低了文本向量空间的维数。然后使用一种合并分枝的模糊决策树进行分类,大大减少了抽取的规则数量。从而既保证了决策树分类的精度和速度,又可抽取出可理解的模糊分类规则。

"

模糊决策树关键词:相似文本分类;规则抽取;!统计量;

中图分类号:89+*&-&!!文献标识码::

!"#$%&$"’()*+&$*(,)-.""#$)&%$*(,/&0"1(,2-++31"%*0*(,$)""

;:<=>3&?"?;:<=@AB01C63&

D&!"#$%&%’%()*+,$%(-$.#/&#((0&#/?1&2#3&#4#&5(0$&%,?1&2#3&#+###)"?67&#2E

"!+87))9)*:2%7(-2%&8$2#;6)-<’%(0+8&(#8(?=(>(&4#&5(0$&%,??2);&#/=(>(&#)&##"?67&#2F

4/0$)&%$5:0B.7BGA6H./IJKBIB0GBH?.AL5ABMGK/5GBHIL7LN/KGBMG5/GB16KLO/GL60K3NBP2/Q3OO2HB5LIL60GKBB7BK1L01I67BPK/05ABI-!"IG/GLIGL5./I/0/N2OBH/0HL7JK6RBH-8AB0B.7BGA6H560RBK1BHQB/G3KBI6QGBMGL0GBK7I6QGABL7JK6RBH!"

IG/GLIGL5?/0HI6N/K1BN2KBH35BHGABHL7B0IL606QGABRB5G6KIJ/5B-:0HGAB0?GABQ3OO2HB5LIL60GKBB./I/JJNLBHG6GBMG5/GB16KLO/GL60-8AB037PBK6Q5/GB16KLO/GL60K3NB./IKBH35BHN/K1BN2P27BK1L01I67BPK/05ABI-S6GAGAB30HBKIG/0H/PNB5/GB16KLO/GL60K3NBIBMGK/5GL60/0HPBGGBK/553K/526Q5/GB16KLO/GL605/0PB/5T3LKBH-6"37()105IL7LN/KGBMG5/GB16KLO/GL60EK3NBBMGK/5GL60E!"IG/GLIGL5EQ3OO2HB5LIL60GKBB

#!引言

文本挖掘是在大量非结构化数据源上进行数据挖掘,抽取感兴趣的、潜在的有用模式和隐藏的信息。文本分类是文本挖掘的一个重要内容。

常用文本分类方法有贝叶斯分类、U<<、支撑向量机VWX、神经网络、YZV8和W6GBH[N/IIQL5/GL60等方法

[&]

计量计算每个词条对每个类别的贡献程度,然后根据词条的分类贡献对特征词条进行聚合,从而大大降低了文本特征维数。最后提出一种分枝合并的模糊决策树对文本进行分类,减少了提取的规则数量,,提高了分类的速度和精度,并可抽取出简明易懂且精度较高的分类规则。

。但这

&!

基于改进!"统计量的特征抽取方法

目前的文本分类方法几乎均使用经典的向量空间模型

些方法只是对文本进行分类,无法像数据挖掘那样抽取其中的知识,即分类规则。有人研究了粗集方法抽取文本的分类

[",+]

规则,但得到的是一个庞大的决策表,在其上进行离散化

(WVX)的文本特征表示方法。向量空间模型的向量维数一般为几千维,甚至几万、几十万维,而且其中存在大量冗余的、带噪声的特征,如果用全部特征进行文本分类,不仅计算量庞大,分类精度也难以保证。因此特征抽取是非常重要的。特征抽取是从文本特征中选出最有代表性的特征部分,以降低特征空间的维数,从而达到降低计算复杂度和提高分类精度的目的。因此文本特征抽取出的特征矢量模式,应该最大可能地反映文本的内容。

对于分类贡献在各个类中比例相近似的特征词条,虽然具有不同的权值,但对于分类操作具有相同的作用,故对于分类操作来说可以视为同一个特征。正是基于这个道理,本文将分类贡献在各个类中比例相近的特征词条聚合为一个特征。聚合后的一个新特征包含一个或多个特征词条,从而大大削减了文本特征向量的维数。

本文提出了一种改进的!"统计量,根据改进的!"统计量计算每个词条对每个类别的分类贡献后,再根据词条的分类贡献进行聚合,得到维数较低的文本特征向量。

和属性约简,工作量十分庞大,抽取的规则十分繁杂,难于理解,且分类精度也难以保证,故缺少实用性。

决策树是一种常用的易于抽取规则的数据挖掘工具,但将其用于特征维数很高的文本分类规则的抽取,其建树和裁减过程的庞大计算量显然也是不实用的。有人提出将其他方

[’,$]法和决策树相结合进行文本分类,虽然提高了文本分类

的性能(分类精度和速度),但是失去提取直观易懂的分类规则的优势。

本文中所谓相似文本分类是指对具有较多相同特征项的文本进行分类,即文本的特征相似程度较大。相似文本分类比一般文本分类要困难。一般决策树在实现相似文本分类时较困难。

本文提出了一种基于模糊决策树的文本分类方法对相似文本分类,并可以很容易提取出直观易懂的模糊文本分类规则。首先,本文提出一种改进的!"统计量,根据改进的!"统

!!收稿日期:"##$%#&%&’;修订日期:"##$%#"%"$!!基金项目:国家自然科学基金资助项目((#")$#"#)!!作者简介:王煜(&*)&%),女,河北保定人,讲师,博士研究生,主要研究方向:文本挖掘;!王正欧(&*+,%),男,上海人,教授,博士生导师,

万方数据 

主要研究方向:神经网络、数据挖掘、知识发现-


  本文关键词:基于模糊决策树的文本分类规则抽取,由笔耕文化传播整理发布。



本文编号:104650

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/104650.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d6d42***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com