当前位置:主页 > 管理论文 > 移动网络论文 >

基于多视角特征融合的中文垃圾微博过滤

发布时间:2018-07-14 13:32
【摘要】:微博中隐含着舆论热点等与特定话题相关的有价值的信息。因此,针对微博数据分析(如话题发现等)的工作成了当前的研究热点。由于微博内容和形式的高度自由,使得相关的研究工作面临着垃圾数据噪声大、有用数据提取难的问题。然而,目前针对非公共话题的中文垃圾微博过滤尚无有效方法。提出一种基于多视角特征融合的垃圾微博过滤方法。该方法首先从微博的结构和内容两个视角建立规则,再与微博文本分词结果进行融合构造复合特征,并以此对垃圾微博进行过滤。通过在真实数据集上的实验表明多视角融合的特征使得过滤效果有明显提升。
[Abstract]:This paper puts forward a method for filtering spam micro - blog based on multi - view feature fusion , which is based on the structure and content of micro blog .
【作者单位】: 中国科学院计算技术研究所网络数据科学与工程研究中心;中国科学院大学;国家计算机网络应急技术处理协调中心;
【基金】:国家重点基础研究发展计划(“九七三”计划)项目(2012CB316303,2012BAH39B04) 高技术研究发展计划(“八六三”计划)项目(2012AA011003) 国家自然科学基金重点资助项目(60933005,61232010)国家自然科学基金面上项目(61173064) 国家242项目(2012F124)
【分类号】:TP393.092

【参考文献】

相关期刊论文 前5条

1 林霜梅;汪更生;陈弈秋;;个性化推荐系统中的用户建模及特征选择[J];计算机工程;2007年17期

2 樊兴华;孙茂松;;一种高性能的两类中文文本分类方法[J];计算机学报;2006年01期

3 贾志洋;李伟伟;张海燕;;基于内容的搜索引擎垃圾网页检测[J];计算机应用与软件;2009年11期

4 韩晓晖;马军;邵海敏;薛冉;;一种基于LDA的Web论坛低质量回帖检测方法[J];计算机研究与发展;2012年09期

5 王元珍,钱铁云,冯小年;基于关联规则挖掘的中文文本自动分类[J];小型微型计算机系统;2005年08期

【共引文献】

相关期刊论文 前10条

1 李文斌;刘椿年;钟宁;;基于两阶段集成学习的分类器集成[J];北京工业大学学报;2010年03期

2 赵军;胡栓柱;樊兴华;;一种新的词语相似度计算方法[J];重庆邮电大学学报(自然科学版);2009年04期

3 曾立梅;;基于文本数据挖掘的硕士论文分类技术[J];重庆邮电大学学报(自然科学版);2010年05期

4 杨凤霞;;基于特征选择的垃圾短信过滤研究[J];沧州师范专科学校学报;2011年03期

5 孙铁利;赵隽;杨凤芹;吴迪;;一种基于相对特征的文本分类算法[J];东北师大学报(自然科学版);2010年01期

6 李艳玲;戴冠中;覃森;;快速的文本倾向性分类方法(英文)[J];电子科技大学学报;2007年06期

7 樊兴华;王鹏;;基于两步策略的中文短文本分类研究[J];大连海事大学学报;2008年03期

8 郭玉琴;袁方;刘海博;;基于模糊分类规则树的文本分类(英文)[J];Journal of Southeast University(English Edition);2008年03期

9 李宁;王子磊;郑涛;;基于本体论的个性化影片推荐技术研究[J];电子技术;2009年10期

10 谭玉玲;张新林;;一种基于主题分类的文本过滤方法及其硬件实现[J];湖南工程学院学报(自然科学版);2010年02期

相关会议论文 前4条

1 马后锋;樊兴华;;一种改进的增量贝叶斯分类算法[A];2007'仪表,,自动化及先进集成技术大会论文集(一)[C];2007年

2 ;An Analysis on the Personalized Recommendation Architecture of Mobile Commerce Application[A];第六届(2011)中国管理学年会——管理科学与工程分会场论文集[C];2011年

3 赵纪元;罗霄;;面向中图法的学术文献自动分类研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

4 钱铁云;冯小年;王元珍;;prefix-hash-tree的插入、查找和重构算法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

相关博士学位论文 前10条

1 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年

2 古平;基于贝叶斯模型的文档分类及相关技术研究[D];重庆大学;2006年

3 王佐成;基于纹理的遥感图像分类研究[D];西南交通大学;2007年

4 王树梅;信息检索相关技术研究[D];南京理工大学;2007年

5 张博锋;面向内容安全的文本分类研究[D];国防科学技术大学;2007年

6 郝立柱;汉语文本自动分类[D];吉林大学;2008年

7 郝秀兰;文本分类技术与应用研究[D];复旦大学;2008年

8 刘赫;文本分类中若干问题研究[D];吉林大学;2009年

9 赵朋朋;Deep Web信息集成若干关键技术研究[D];苏州大学;2008年

10 刘志勇;基于本体的自适应学习方法及应用研究[D];吉林大学;2010年

相关硕士学位论文 前10条

1 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年

2 罗文兵;自适应教学科研信息推送服务模型研究[D];江西师范大学;2010年

3 徐旭;基于决策树的Web应用系统个性化身份验证研究[D];合肥工业大学;2010年

4 姜伦;模糊聚类算法及其在中文文本聚类中的研究与实现[D];哈尔滨理工大学;2010年

5 刘继勇;网络舆情预警辅助决策支持系统模型及关键技术研究[D];石家庄经济学院;2010年

6 孙久舒;基于内容关联的政府网站信息服务模型研究[D];吉林大学;2011年

7 李高敏;基于协同过滤的教学资源个性化推荐技术的研究及应用[D];北京交通大学;2011年

8 张一平;基于Agent的餐饮个性化推荐建模与仿真研究[D];大连理工大学;2011年

9 魏彦鹏;基于移动社会网络的用户行为分析[D];北京邮电大学;2011年

10 杜伟;智能化信息服务平台服务器端设计与实现[D];北京邮电大学;2011年

【二级参考文献】

相关期刊论文 前9条

1 应晓敏,刘明,窦文华;一种面向个性化服务的无需反例集的用户建模方法[J];国防科技大学学报;2002年03期

2 朱华宇,孙正兴,张福炎;一个基于向量空间模型的中文文本自动分类系统[J];计算机工程;2001年02期

3 贺海军,王建芬,周青,曹元大;基于决策支持向量机的中文网页分类器[J];计算机工程;2003年02期

4 石晶;胡明;石鑫;戴国忠;;基于LDA模型的文本分割[J];计算机学报;2008年10期

5 黄萱菁,吴立德,石崎洋之,徐国伟;独立于语种的文本分类方法[J];中文信息学报;2000年06期

6 李辉,史忠植,许卓群;运用文本领域的常识改善基于支撑向量机的文本分类器性能[J];中文信息学报;2002年02期

7 刘少辉,董明楷,张海俊,李蓉,史忠植;一种基于向量空间模型的多层次文本分类方法[J];中文信息学报;2002年03期

8 刘斌,黄铁军,程军,高文;一种新的基于统计的自动文本分类方法[J];中文信息学报;2002年06期

9 解冲锋,李 星;基于序列的文本自动分类算法[J];软件学报;2002年04期

【相似文献】

相关期刊论文 前10条

1 王平;;一种改进的CHI算法在垃圾邮件过滤中的应用[J];网络安全技术与应用;2008年12期

2 吴桂玲;;基于欧氏距离和余弦相似度特征选择的入侵检测模型[J];中小企业管理与科技(上旬刊);2010年02期

3 李慧;李存华;王霞;;基于特征选择的网页排名算法[J];计算机工程;2010年13期

4 李健,范万春,何驰;基于多分类支持向量机的网络入侵检测技术[J];计算机应用;2005年07期

5 王卫玲;刘培玉;刘克非;;一种用于电子邮件分类的特征选择算法[J];计算机工程与应用;2006年33期

6 董小国;丁冉;;IDS自适应特征选择算法——进化包装(Wrapper)算法分析[J];微计算机信息;2006年33期

7 于咏霞;杨阳;余生晨;;基于免疫算法和支持向量机的入侵检测研究[J];华北科技学院学报;2009年01期

8 朱莉;李玲娟;;攻击特征在线选择方法的研究[J];西安邮电学院学报;2009年03期

9 孙宁青;;基于神经网络和CFS特征选择的网络入侵检测系统[J];计算机工程与科学;2010年06期

10 邱密;阳爱民;刘永定;何震凯;;使用贝叶斯学习算法分类网络流量[J];计算机工程与应用;2010年25期

相关会议论文 前6条

1 柳斌;李之棠;涂浩;;一种基于半监督学习的应用层流量分类方法[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年

2 付焕焕;李俊;张洁;;入侵检测中机器学习算法的集成[A];中国电子学会第十七届信息论学术年会论文集[C];2010年

3 高海华;王行愚;杨辉华;;基于群智能和SVM的网络入侵特征选择和检测[A];2005年中国智能自动化会议论文集[C];2005年

4 毛俐e

本文编号:2121809


资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2121809.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1206c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com