微博用户的相似性度量及其应用
本文关键词:微博用户的相似性度量及其应用,由笔耕文化传播整理发布。
1期
徐志明等:微博用户的相似性度量及其应用
209
括可分为几个部分:数据获取、节点分析、关系分析、博用户关系分析的技术平台(如图1所示),本文下网络分析、信息推荐.将它们组合起来,形成一个微
面分别详细介绍各个部分的工作原理.
微博数据获取
。———]
i微博节点分析
微博关系分析
t
/
l熟寻苟点。}
列表/
微博用户信息
微博用户表示
:属性相似度计算I
0
l背景信息I
。I
8目女;I一
H背景相似度I:
l微博I
用户
l爬虫】
I微博文本l
{—一文本相似度I
相似
』
I…。…’o:;o。。。’’一l
bl文本向量I-
{{;。。h…。:∥
Ij\人度计
算
l∈博数据库叶
I社交信息I;卜1I社交向量lII:71”x+'IEIo”“I
!I
l交互行为1
-I姬频次向量I
,l交互性I
一
微博网络分析.
●
用户相似性网络
。1mⅫ日¨**i7llml圩Ⅲm】6Ⅷ
。l_{Ⅻ』b““J1。lmⅫ-mH★&#7l…““”“11
l””“”1‘”
.
一’
图1微博用户关系分析的技术平台
2.1微博数据获取
(2)Tweet(U):表示U发布的全部微博所拼接该部分根据新浪微博开放平台的API接口,设成的长文本.本文将其表示为一个文本向量.过程
计了一个微博爬虫算法.它选择一组微博用户作为如下:
种子节点,利用雪球采样策略采集一组微博用户的文本预处理.对Tweet(“)进行分词、停用词过个人数据,作为本文的实验数据.主要思想如下.
滤、词性标注等处理;
(1)选择一组微博用户{1D,,ID。,…,ID。)作特征提取.采用信息增益的特征选择算法提取为种子节点,加入待爬行节点队列Q.
Tweet(“)的特征词,对文本进行降维处理;
(2)如果Q—NULL或超过阈值(预设的爬行权重计算.Tweet(U)中的每个特征词i的权时间或扩展层数),则退出;否则从Q中取出一个用重硼。,本文采用£,*idf方法来计算,即硼i=户lDt.
tf,(Tweet(“))×logN/ni,其中tf,(Tweet(M))表示(3)利用新浪微博API访问函数,抓取该用户特征词i在Tweet(“)中的频率,logN/ni为特征词i节点ID。的个人信息,将用户的背景信息(位置信
的逆文档频率.
息、标签信息、个人描述)、社交信息(关注信息、粉丝
向量表示.Tweet(甜)一(训l,训2,…,训。),其中信息)、微博文本、交互信息(转发信息、评论信息),硼,为微博文本的某个特征词i的权重.
分别存入微博用户信息数据库.
(3)Relation(“):表示U的社交信息,包括两种(4)扩展该节点ID。,将其邻居节点(ID。的关注属性信息(关注信息、粉丝信息),本文将它们分列表中的全部用户ID)加入Q,转到(2).别表示为两个向量:关注向量Followee(“)、粉丝向2.2微博节点分析
量Follower(U),则Relation(U)一{Followee(U),该部分讨论微博用户信息的模型表示方法.对Follower(“)).具体方法是:将所有用户编号{0,1,于给定的一个用户“,,其用户信息包含4种属性信2,…,n},若用户“关注了编号为i的用户,则息(背景信息、微博文本、社交信息、交互信息),因此Followee(“)的第i个分量为1,否则为0;同理,如果U的模型表示问题可分解为4种属性信息表示问编号为i的用户关注了用户U,则Follower(“)的第题.即Profile(U)一{Background(“),Tweet(U),i个分量为l,否则为0.
Relation(u),Interaction(“)),具体说明如下:
(4)Interaction(“):表示U的交互信息,包括(1)Background(“):表示U的背景信息,包含两种属性信息(gq发信息、评论信息).本文将它们U的3种属性信息(位置信息、标签信息、个人描述),分别表示为两个向量:转发向量Retweet(“)、评论均是短文本,可表示为字符串.Background(U)一
向量Comment(U).Interaction(U)={Retweet(U),{Place(“),Tag(“),Introduction(“)}.
Comment(“)).具体方法是:将所有用户编号{0,1,
本文关键词:微博用户的相似性度量及其应用,由笔耕文化传播整理发布。
本文编号:232071
本文链接:https://www.wllwen.com/wenshubaike/xxkj/232071.html