用户驱动的微博可视化搜索
【图文】:
,以微博源用户驱动微博搜索过程。2本文方法首先对微博源数据进行预处理,抽取出微博用户行为特征和兴趣特征,建立微博用户模型库。在给定检索词条件下,基于用户模型库构建用户兴趣特征网络(特征词-用户网络),再基于检索词执行关注度传递算法,计算兴趣特征词、微博用户的搜索相关性。基于兴趣特征词与检索词间的相关性进行扩展查询,基于微博用户与检索词间的相关性缩小微博搜索空间,提高搜索效率,并且用气泡图(bub-blecloud)可视化出特征词、用户的搜索相关性,提供交互式的微博搜索可视化接口,其流程图如图1所示。图1流程图Fig.1Flowchart2.1用户建模用户建模分为用户兴趣特征建模和用户行为特征建模两部分。2.1.1用户兴趣特征建模新浪微博作为一个信息分享平台,用户可以通过网页、外部程序,手机短信、彩信等发布140汉字(280字符)以内的信息,并可包含图片、视频链接、网页链接的资源,来分享他们的感兴趣的信息。本文将从微博文本内容中提取出用户的兴趣特征。首先要对微博条目进行过滤处理,删除掉一些与用户兴趣无关的内容,如图片、视频链接,表情,以及微博常用词语、符号,如“转发微博”,“//@用户名”,“#”等。借助汉语词法分析系统ICTCLAS(http://ict-clas.nlpir.org/)以每个用户为单位对其微博文本进行分词和POS(PartofSpeech)词性标注。POS标注主要包含名词、时间词、处所词、动词、形容词、外文单词等,其中名词(n)包含以下几个子类:人名(nr)、地名(ns)、机构团体名(nt)等。由于本文关注的是用户的兴趣特征,所以借助POS标注,过滤掉除名词和外文词外的其他词,并计算用户微博词频。这里使用向量空间模型(VSM)来描述用户微博,表示为Dk=(〈ti,tf1〉,〈t2,tf2
第20卷/第5期/2015年5月周霞娟,汪飞,金玲,陈为,,王章野/用户驱动的微博可视化搜索0719图2用户-特征词关系图Fig.2User-featurewordrelationship(〈u1,w1〉,〈u2,w2〉,…,〈unk,wnk〉)k,nk为与Tk关联的用户数。基于检索词的用户可以表示为U(k)={wq,k,Behk,Dk}。给定检索词q,可以从用户兴趣特征网络中提取出搜索关注子网,关注子网以检索词q为中心。如果搜索者关注特征词q,将有可能关注与q连接的微博用户u,同时如果用户关注u,那么也会关注与u相关的特征词,以此类推,搜索关注度将会在关注子网传递。下面,将在关注子网执行关注度传递算法,计算用户对特征词、微博用户的关注度。初始状态下,给定检索词q,其关注度为Att(q)=1.0,其他特征词与用户的被关注度初始值为0。每一次迭代分为两个过程,如图3所示,关注度由词结点传递给用户结点,再由用户结点传递给词结点。如此不断迭代,直至用户和词结点的关注度值趋于稳定状态。图3关注度迭代过程Fig.3Iterationprocessofattentiondegree词结点ti到用户结点uj的关注度传递过程计算公式为Att(uj)=wti(uj)ΣNuk=1wti(uk)·Att(ti)(6)Nu为与词结点ti关联的用户数,wti(uj)为词结点ti到用户结点uj的关注度传递系数,同时考虑用户的兴趣特征权重和用户行为特征,定义为wti(uj)=θ·wti,uj+(1-θ)·wbeh(uj),其中wti,uj为用户uj兴趣特征向量中对应于特征词ti的权重,wbeh(uj)为用户uj的行为特征值,θ为调节参数。θ取值范围为[0,1],搜索者可以依据自己的搜索需求进
【作者单位】: 浙江大学CAD&CG国家重点实验室;
【基金】:国家自然科学基金项目(61232012);国家自然科学基金面上项目(61272302) 浙江省自然科学基金项目(LR13F020001) 教育部博士点基金项目(20120101110134)
【分类号】:TP393.092;TP391.3
【参考文献】
中国期刊全文数据库 前1条
1 王晶;朱珂;汪斌强;;基于信息数据分析的微博研究综述[J];计算机应用;2012年07期
【共引文献】
中国期刊全文数据库 前8条
1 陈舜华;王晓彤;郝志峰;蔡瑞初;肖晓军;卢宇;;基于微博API的分布式抓取技术[J];电信科学;2013年08期
2 游翔;葛卫丽;;微博数据获取技术及展望[J];电子科技;2014年10期
3 许筠芸;陆贤彬;;移动社会化媒体技术接受与匹配影响因素研究——以移动微博客户端发布行为为例[J];经济与管理;2013年02期
4 吴凯;季新生;刘彩霞;;基于行为预测的微博网络信息传播建模[J];计算机应用研究;2013年06期
5 陈慧娟;郑啸;陈欣;;微博网络信息传播研究综述[J];计算机应用研究;2014年02期
6 郑众杰;林学练;;SFEN-Inf:一种微博信息传播网络推理算法[J];计算机研究与发展;2014年S2期
7 邹艳菁;;基于语料库的中文微博话语特征研究初探[J];中国报业;2012年18期
8 李祥;;群体性突发事件微博舆情演化分析[J];科技资讯;2014年34期
中国博士学位论文全文数据库 前2条
1 尹航;信息推荐系统中的协同过滤技术研究[D];东北大学;2012年
2 王新媛;基于本体建模的微博信息管理机理研究[D];吉林大学;2015年
【二级参考文献】
中国期刊全文数据库 前2条
1 许晓东;肖银涛;朱士瑞;;微博社区的谣言传播仿真研究[J];计算机工程;2011年10期
2 李爽;;从微博中挖掘有用信息[J];网络与信息;2011年06期
【相似文献】
中国期刊全文数据库 前10条
1 翟东海;杜佳;崔静静;聂洪玉;;基于双粒度模型的中文情感特征词提取研究[J];重庆邮电大学学报(自然科学版);2014年03期
2 李广原;一种特征词权重调整算法的研究[J];电脑与信息技术;2005年04期
3 李德容;干静;张s
本文编号:2522249
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2522249.html