基于博文质量评估的微博过滤研究
本文关键词:基于博文质量评估的微博过滤研究
【摘要】:目前社交网络媒体已逐渐取代传统新闻媒体,成为人们获取信息、交流观点、发表意见的主要平台。但是随着微博参与者数量的爆发式增长,用户面临“信息过载,知识缺乏”的窘境。微博过滤技术能够帮助用户过滤无关垃圾信息,并根据用户兴趣挖掘相关内容,因而得到研究者的广泛关注。已有的研究表明,将微博过滤建模成简单信息检索问题无助于提高微博过滤性能。这主要是因为微博作为典型的短文本,微博过滤面临极端的词稀疏问题,导致传统检索模型无法有效估计参数而失效。有鉴于此,本文通过引入了微博博文质量模型,将微博过滤问题建模成根据博文质量,对检索出的相关博文进行深化排序的问题,提出了一种新颖的微博信息过滤处理框架。本文的主要贡献包括:首先,本文给出了基于质量模型的微博过滤系统设计。在对研究涉及的相关知识进行综述的基础上,将微博过滤任务建模成依据博文质量进行的博文排序问题,提出了一种新颖的微博信息过滤处理框架,并详细介绍了微博过滤系统的结构设计、关键模块和功能描述。其次,本文研究了基于同质性约束的微博内容最优低秩表达方法。考虑到微博内容表达的不规范性,微博内容特征往往很高但特征极其稀疏,给微博的分析和研究带来了很大的不便。基于上述考虑,对微博“内容—文档”矩阵进行因子化分解,用分解得到的低秩矩阵和微博检索特征矩阵综合得到了微博内容特征表达,并通过引入同质性系数约束进一步优化表达矩阵。再次,本文研究了基于稀疏特征约束的博文质量评估模型方法。我们根据微博内容最优低秩表达,建立了微博博文质量评估模型,根据博文质量实现相关博文推荐和无关博文过滤。同时为了减少微博质量评估模型的复杂度、降低回归模型的分类风险,使用基于稀疏特征约束的广义线性回归模型,进一步降低微博博文质量评估模型函数的特征变量依赖性。最后,本文在公开数据集上验证了算法的有效性,在TREC Microblog Track2015实验数据集上的实验结果表明,和现有的微博过滤方法相比,本文提出的微博质量模型可以对微博过滤系统的排序性能进行优化,平均NDCG值有了一定提高。
【关键词】:微博过滤 模型 分解 性约束 约束
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.092;TP391.3
【目录】:
- 摘要4-5
- Abstract5-9
- 第1章 绪论9-15
- 1.1. 研究背景以及意义9-10
- 1.2. 研究现状10-12
- 1.2.1 国内外研究现状10-11
- 1.2.2 国内研究现状11-12
- 1.2.3 现有研究存在的问题12
- 1.3. 主要研究内容12-13
- 1.4. 论文结构13-15
- 第2章 相关技术研究综述15-25
- 2.1. 微博过滤系统综述15-17
- 2.1.1 信息检索模型15-17
- 2.1.2 微博过滤17
- 2.2. 查询扩展技术17-20
- 2.2.1 基于近义词词典的查询扩展18
- 2.2.2 基于文档集分析的查询扩展18-19
- 2.2.3 基于外部源查询扩展技术19-20
- 2.3. 矩阵分解20-22
- 2.3.1 奇异值分解20-21
- 2.3.2 非负矩阵分解21-22
- 2.4. 稀疏特征约束的正则化理论22-23
- 2.5. 本章小结23-25
- 第3章 基于博文质量的微博过滤系统25-35
- 3.1. 问题建模25-26
- 3.2. 系统结构26-29
- 3.3. 基于维基百科的查询扩展模块29
- 3.4. 微博过滤系统29-31
- 3.5. 微博博文质量模型31-33
- 3.6. 本章小结33-35
- 第4章 基于同质性约束的微博内容最优低秩表达方法研究35-43
- 4.1. 相关知识理论35-38
- 4.1.1 非负矩阵分解技术35-37
- 4.1.2 同质性系数37-38
- 4.2. 基于同质性约束的微博内容最优低秩表达方法模型建模38
- 4.3. 基于同质性约束的微博内容最优低秩表达方法求解38-41
- 4.4. 本章小结41-43
- 第5章 基于稀疏特征约束的博文质量评估模型方法43-49
- 5.1. 基于稀疏特征约束的博文质量评估模型建模43
- 5.2. 模型参数正则化43-45
- 5.3. L1-范数正则化45-46
- 5.4. 正则化优化问题求解46-48
- 5.5. 本章小结48-49
- 第6章 实验设计以及结果分析49-59
- 6.1. 实验环境以及评价方法49
- 6.2. 数据组织49-50
- 6.3. 实验设计50-51
- 6.4. 实验结果51-56
- 6.5. 实验结果分析56-57
- 6.6. 实验总结57-59
- 结论59-61
- 参考文献61-65
- 攻读硕士学位期间发表的学术论文65-67
- 致谢67
【相似文献】
中国期刊全文数据库 前10条
1 詹旭;王岳秀;谢千河;;邮件病毒及过滤系统研究[J];成都信息工程学院学报;2009年01期
2 黄文良;陈纯;罗云彬;;一种高效垃圾短信过滤系统的实现[J];电信科学;2008年05期
3 陈丽萍;赵利平;陈新敏;;基于自学习规避库的短消息过滤系统的设计与实现[J];电脑知识与技术;2011年31期
4 杨涛;郭庆;;网络通信中内容过滤系统的重要性分析[J];数字化用户;2013年03期
5 邹钰;;基于逻辑回归模型的垃圾短信过滤系统的研究[J];数字技术与应用;2013年02期
6 杜淑琴;肖杰浩;;基于神经网络的智能过滤系统的研究与设计[J];现代计算机;2006年05期
7 黄文良;李石坚;刘菊新;徐从富;;一个大规模垃圾短信实时过滤系统[J];北京邮电大学学报;2008年03期
8 利娜;;基于云模式的新型过滤系统的研究[J];电脑知识与技术;2013年02期
9 刘志英;;网络通信中内容过滤系统的重要性分析[J];计算机光盘软件与应用;2013年22期
10 胡日勒;蔡洁;钟义信;;短信过滤系统设计分析[J];计算机应用研究;2008年08期
中国重要会议论文全文数据库 前10条
1 许方强;;书画展柜空气净化过滤系统的研究[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
2 黄文良;李石坚;刘菊新;徐从富;;大规模垃圾短信实时过滤系统的设计与实现[A];中国通信学会第五届学术年会论文集[C];2008年
3 黄文良;李石坚;陆冠中;;大规模实时垃圾短信过滤系统[A];2007年中国通信学会“移动增值业务与应用”学术年会论文集[C];2007年
4 娄奇袭;叶永生;;不锈钢酸洗酸过滤系统功能浅析[A];2007中国钢铁年会论文集[C];2007年
5 谢国雄;;芒硝过滤系统运行状态浅析[A];全国制浆造纸行业国产二氧化氯装备及节能减排新技术应用推介会论文集[C];2011年
6 杨建红;;网站过滤系统及其关键技术研究与开发[A];12省区市机械工程学会2006年学术年会湖北省论文集[C];2006年
7 吴志中;吴晓铃;;液压过滤系统的设计[A];第八届全国设备与维修工程学术会议、第十三届全国设备监测与诊断学术会议论文集[C];2008年
8 李治国;;湿法炼锌渣过滤系统改造实践[A];全国“十二五”铅锌冶金技术发展论坛暨驰宏公司六十周年大庆学术交流会论文集[C];2010年
9 江涛;于洪志;徐涛;;互联网藏文内容安全检测过滤系统研究[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
10 豆风雷;蔡永泉;;互联网WEB信息内容过滤系统[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 记者 刘钢;德将建立互联网过滤系统[N];新华每日电讯;2000年
2 记者 刘钢;德国将建立互联网过滤系统[N];人民日报;2000年
3 本报记者 周昆;人造雾景两大认识误区[N];中国花卉报;2009年
4 本报记者 那罡;新应用为URL过滤系统带来新挑战[N];中国计算机报;2009年
5 记者 吴月辉;50层的楼安全又经济[N];新华每日电讯;2002年
6 记者 孟朝红;三聚氰胺过滤系统瓶颈问题有望解决[N];中国化工报;2005年
7 葛秋芳;英国:放松并不放任[N];新华每日电讯;2007年
8 淡然;日本:“网络威吓”困扰年轻一代,单靠技术难解决[N];新华每日电讯;2007年
9 吴鸣刚;柴油颗粒过滤系统研发现状[N];今日信息报;2003年
10 张旌;美国热门大众点评网疑敲诈企业[N];新华每日电讯;2010年
中国硕士学位论文全文数据库 前10条
1 米婧;基于文本内容的垃圾短信过滤系统[D];北京理工大学;2016年
2 刘陆阳;基于博文质量评估的微博过滤研究[D];北京工业大学;2016年
3 关婧;基于内容的客户端垃圾短信过滤系统的研究[D];北京邮电大学;2008年
4 郭祯;基于客户端的手机短信过滤系统的设计与实现[D];海南大学;2010年
5 张沛强;未成年人上网内容过滤系统的设计与实现[D];华东师范大学;2008年
6 梁威;基于海量数据的内容过滤系统的研究[D];武汉邮电科学研究院;2012年
7 高玮;雨水过滤系统的建模与仿真实现[D];青岛大学;2007年
8 陈献庆;应用层协议过滤系统设计与实现[D];电子科技大学;2010年
9 陆彩萍;前置式电子邮件过滤系统的性能改进研究[D];上海交通大学;2007年
10 张家勇;基于链路层数据的中文信息智能过滤系统研究[D];辽宁工程技术大学;2007年
,本文编号:603937
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/603937.html