基于混合特征的微博信息分类方法研究
发布时间:2021-08-14 05:46
近年来,微博的飞速发展使它成为了不可忽视的网络力量。微博信息分类可以帮助用户快速,准确地获取需要的微博信息,过滤无用的微博垃圾信息,有着重要的研究意义。本文根据微博的特点,提出了了如下方法提高了微博信息分类的准确率。首先,在外国微博(twitter)的信息分类的8F(8Features)法的理论基础上,把微博中除了微博正文以外的一些信息也作为微博分类的特征,和正文部分一起形成了微博的混合特征,这些包括3F法(作者信息+正文+链接)和4F法(作者信息+正文+链接+评论)等。然后,本文基于在同一种类别的微博中会重复出现多次的词应该和分类相关度较高的假设,在传统的卡方(CHI)统计量的基础上,引入了频度等因素,改进了传统的特征选择方法。并在传统的特征项的权值计算的基础上,提出了新的tf*idf*改进的卡方统计量的方法,改进了权重计算的效果。最后本文提出了结合正文部分和混合特征的1F-3F法(先只按正文部分分类,小于判定阈值时再按照3F法分类)。我们对上述提出的方法利用经典的算法KNN或SVM进行了测试,证明了我们提出的方法对于提高微博信息分类的准确率是有效的。
【文章来源】:北京工业大学北京市 211工程院校
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
SVM图示
图 3-1 微博混合特征示意图Fig.3-1 picture of the micro-blog's mixed characteristics这只是个简单的例子,当点击作者,链接,回复等超链接,我们可以获得更的微博综合特征。把 T1,T2,T3,T4 综合起来,填补了缺失的信息,就比较容易判断是属于类的一条微博。因为填补了一些和体育类别高度相关的特征,如体育解说员,运动员,中场,中卫等。这种方法是在我们后面的实验中被证明是有效的传统的分类方法只是基于微博的正文部分的分类,表示为图 3-2:
图 3-4 混合特征的引入对微博信息分类的影响(KNN)Fig.3-4 the effect of the mixed characteristics to the micro-blog information classification可以从图 3-4 中看出,基于布尔统计普遍要好于基于词频统计,这与文本分类,新闻分类的研究结果一致。随着微博混合特征的引入,分类准确率得到了一定程度的提高。我们测试了所有 T1,T2,T3,T4 的排列组合,其中正文+链接作者信息(T1+T2+T3)的分类效果最好,我们定义它为基于混合特征的微博分类方法中的 3F(3Features)方法,如图 3-5 所示:
本文编号:3341886
【文章来源】:北京工业大学北京市 211工程院校
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
SVM图示
图 3-1 微博混合特征示意图Fig.3-1 picture of the micro-blog's mixed characteristics这只是个简单的例子,当点击作者,链接,回复等超链接,我们可以获得更的微博综合特征。把 T1,T2,T3,T4 综合起来,填补了缺失的信息,就比较容易判断是属于类的一条微博。因为填补了一些和体育类别高度相关的特征,如体育解说员,运动员,中场,中卫等。这种方法是在我们后面的实验中被证明是有效的传统的分类方法只是基于微博的正文部分的分类,表示为图 3-2:
图 3-4 混合特征的引入对微博信息分类的影响(KNN)Fig.3-4 the effect of the mixed characteristics to the micro-blog information classification可以从图 3-4 中看出,基于布尔统计普遍要好于基于词频统计,这与文本分类,新闻分类的研究结果一致。随着微博混合特征的引入,分类准确率得到了一定程度的提高。我们测试了所有 T1,T2,T3,T4 的排列组合,其中正文+链接作者信息(T1+T2+T3)的分类效果最好,我们定义它为基于混合特征的微博分类方法中的 3F(3Features)方法,如图 3-5 所示:
本文编号:3341886
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3341886.html