一种半监督的中文垃圾微博过滤方法
本文关键词:一种半监督的中文垃圾微博过滤方法
更多相关文章: 垃圾微博过滤 半监督学习 EM算法 朴素贝叶斯
【摘要】:微博作为目前国内外最活跃的信息分享平台之一,其中却充斥着大量的垃圾内容。因此,如何从给定话题的微博数据中,过滤掉与话题不相关的垃圾微博、保留话题相关微博,成为迫切需要解决的问题。该文提出了一种半监督的中文微博过滤方法,基于朴素贝叶斯分类模型和最大期望算法,实现了利用少量标注数据的垃圾微博过滤算法,其优势是仅仅利用少量标注数据就可以获得较为理想的过滤性能。分别对十个话题140 000余条新浪微博数据进行过滤,该文提出的模型准确度和F值优于朴素贝叶斯和支持向量机模型。
【作者单位】: 清华大学计算机科学与技术系;
【关键词】: 垃圾微博过滤 半监督学习 EM算法 朴素贝叶斯
【基金】:国家自然科学基金(61332007,61272227)
【分类号】:TP391.1;TP393.092
【正文快照】: 1引言微博(Microblog)是一种基于用户关系的短文本信息分享平台。根据文献[1]统计显示,截止到2014年8月,推特上注册用户数达到近十亿,月活跃用户达2.71亿。微博已经成为互联网用户获取和传递信息的重要平台。微博中的博文或推文(Tweets),涵盖了多个话题,涉及经济、政治、科技
【相似文献】
中国期刊全文数据库 前10条
1 毛煜;余正涛;孟祥燕;张志坤;许洋波;郭剑毅;;中文问答对过滤方法研究[J];广西师范大学学报(自然科学版);2009年03期
2 佟俊辉;李娜;金跃辉;;一种树形过滤方法的设计与实现架构[J];微计算机应用;2007年11期
3 谭文堂;朱洪;葛斌;李芳芳;肖卫东;;垃圾评论自动过滤方法[J];国防科技大学学报;2012年05期
4 张千龙;雷菁;;垃圾短信过滤方法的研究[J];科技信息(科学教研);2007年30期
5 段立娟,包振山,毛国君;多特征特定类型图像过滤方法[J];北京工业大学学报;2005年04期
6 张睿;刘晓霞;;基于URN的特征冲突过滤方法[J];计算机工程;2009年21期
7 马金鑫;袁丁;;一种特征代码过滤方法的改进[J];计算机应用与软件;2010年08期
8 邢玲;马建国;李幼平;刘志文;;一种基于UCL的中文网页信息过滤方法[J];电子学报;2006年10期
9 叶欣;;智能手机短信过滤方法的研究[J];软件导刊;2009年01期
10 邓正杰;陈国源;王凤伟;何书前;石春;;一种基于联合双边滤波的网格细节过滤方法[J];电脑知识与技术;2013年13期
中国重要会议论文全文数据库 前1条
1 丁丹;袁华;张凌;;基于内容的广告垃圾图像过滤方法的研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国硕士学位论文全文数据库 前1条
1 温都日娜;一种基于本体的敏感词过滤方法研究[D];吉林大学;2014年
,本文编号:891106
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/891106.html