当前位置:主页 > 管理论文 > 移动网络论文 >

一种半监督的中文垃圾微博过滤方法

发布时间:2017-09-20 23:38

  本文关键词:一种半监督的中文垃圾微博过滤方法


  更多相关文章: 垃圾微博过滤 半监督学习 EM算法 朴素贝叶斯


【摘要】:微博作为目前国内外最活跃的信息分享平台之一,其中却充斥着大量的垃圾内容。因此,如何从给定话题的微博数据中,过滤掉与话题不相关的垃圾微博、保留话题相关微博,成为迫切需要解决的问题。该文提出了一种半监督的中文微博过滤方法,基于朴素贝叶斯分类模型和最大期望算法,实现了利用少量标注数据的垃圾微博过滤算法,其优势是仅仅利用少量标注数据就可以获得较为理想的过滤性能。分别对十个话题140 000余条新浪微博数据进行过滤,该文提出的模型准确度和F值优于朴素贝叶斯和支持向量机模型。
【作者单位】: 清华大学计算机科学与技术系;
【关键词】垃圾微博过滤 半监督学习 EM算法 朴素贝叶斯
【基金】:国家自然科学基金(61332007,61272227)
【分类号】:TP391.1;TP393.092
【正文快照】: 1引言微博(Microblog)是一种基于用户关系的短文本信息分享平台。根据文献[1]统计显示,截止到2014年8月,推特上注册用户数达到近十亿,月活跃用户达2.71亿。微博已经成为互联网用户获取和传递信息的重要平台。微博中的博文或推文(Tweets),涵盖了多个话题,涉及经济、政治、科技

【相似文献】

中国期刊全文数据库 前10条

1 毛煜;余正涛;孟祥燕;张志坤;许洋波;郭剑毅;;中文问答对过滤方法研究[J];广西师范大学学报(自然科学版);2009年03期

2 佟俊辉;李娜;金跃辉;;一种树形过滤方法的设计与实现架构[J];微计算机应用;2007年11期

3 谭文堂;朱洪;葛斌;李芳芳;肖卫东;;垃圾评论自动过滤方法[J];国防科技大学学报;2012年05期

4 张千龙;雷菁;;垃圾短信过滤方法的研究[J];科技信息(科学教研);2007年30期

5 段立娟,包振山,毛国君;多特征特定类型图像过滤方法[J];北京工业大学学报;2005年04期

6 张睿;刘晓霞;;基于URN的特征冲突过滤方法[J];计算机工程;2009年21期

7 马金鑫;袁丁;;一种特征代码过滤方法的改进[J];计算机应用与软件;2010年08期

8 邢玲;马建国;李幼平;刘志文;;一种基于UCL的中文网页信息过滤方法[J];电子学报;2006年10期

9 叶欣;;智能手机短信过滤方法的研究[J];软件导刊;2009年01期

10 邓正杰;陈国源;王凤伟;何书前;石春;;一种基于联合双边滤波的网格细节过滤方法[J];电脑知识与技术;2013年13期

中国重要会议论文全文数据库 前1条

1 丁丹;袁华;张凌;;基于内容的广告垃圾图像过滤方法的研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

中国硕士学位论文全文数据库 前1条

1 温都日娜;一种基于本体的敏感词过滤方法研究[D];吉林大学;2014年



本文编号:891106

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/891106.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户34579***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com