当前位置:主页 > 论文百科 > 农业期刊 >

微博用户的相似性度量及其应用

发布时间:2017-01-02 17:33

  本文关键词:微博用户的相似性度量及其应用,由笔耕文化传播整理发布。


1期

徐志明等:微博用户的相似性度量及其应用

209

括可分为几个部分:数据获取、节点分析、关系分析、博用户关系分析的技术平台(如图1所示),本文下网络分析、信息推荐.将它们组合起来,形成一个微

面分别详细介绍各个部分的工作原理.

微博数据获取

。———]

i微博节点分析

微博关系分析

l熟寻苟点。}

列表/

微博用户信息

微博用户表示

:属性相似度计算I

l背景信息I

。I

8目女;I一

H背景相似度I:

l微博I

用户

l爬虫】

I微博文本l

{—一文本相似度I

相似

I…。…’o:;o。。。’’一l

bl文本向量I-

{{;。。h…。:∥

Ij\人度计

l∈博数据库叶

I社交信息I;卜1I社交向量lII:71”x+'IEIo”“I

!I

l交互行为1

-I姬频次向量I

,l交互性I

微博网络分析.

用户相似性网络

。1mⅫ日¨**i7llml圩Ⅲm】6Ⅷ

。l_{Ⅻ』b““J1。lmⅫ-mH★&#7l…““”“11

l””“”1‘”

一’

图1微博用户关系分析的技术平台

2.1微博数据获取

(2)Tweet(U):表示U发布的全部微博所拼接该部分根据新浪微博开放平台的API接口,设成的长文本.本文将其表示为一个文本向量.过程

计了一个微博爬虫算法.它选择一组微博用户作为如下:

种子节点,利用雪球采样策略采集一组微博用户的文本预处理.对Tweet(“)进行分词、停用词过个人数据,作为本文的实验数据.主要思想如下.

滤、词性标注等处理;

(1)选择一组微博用户{1D,,ID。,…,ID。)作特征提取.采用信息增益的特征选择算法提取为种子节点,加入待爬行节点队列Q.

Tweet(“)的特征词,对文本进行降维处理;

(2)如果Q—NULL或超过阈值(预设的爬行权重计算.Tweet(U)中的每个特征词i的权时间或扩展层数),则退出;否则从Q中取出一个用重硼。,本文采用£,*idf方法来计算,即硼i=户lDt.

tf,(Tweet(“))×logN/ni,其中tf,(Tweet(M))表示(3)利用新浪微博API访问函数,抓取该用户特征词i在Tweet(“)中的频率,logN/ni为特征词i节点ID。的个人信息,将用户的背景信息(位置信

的逆文档频率.

息、标签信息、个人描述)、社交信息(关注信息、粉丝

向量表示.Tweet(甜)一(训l,训2,…,训。),其中信息)、微博文本、交互信息(转发信息、评论信息),硼,为微博文本的某个特征词i的权重.

分别存入微博用户信息数据库.

(3)Relation(“):表示U的社交信息,包括两种(4)扩展该节点ID。,将其邻居节点(ID。的关注属性信息(关注信息、粉丝信息),本文将它们分列表中的全部用户ID)加入Q,转到(2).别表示为两个向量:关注向量Followee(“)、粉丝向2.2微博节点分析

量Follower(U),则Relation(U)一{Followee(U),该部分讨论微博用户信息的模型表示方法.对Follower(“)).具体方法是:将所有用户编号{0,1,于给定的一个用户“,,其用户信息包含4种属性信2,…,n},若用户“关注了编号为i的用户,则息(背景信息、微博文本、社交信息、交互信息),因此Followee(“)的第i个分量为1,否则为0;同理,如果U的模型表示问题可分解为4种属性信息表示问编号为i的用户关注了用户U,则Follower(“)的第题.即Profile(U)一{Background(“),Tweet(U),i个分量为l,否则为0.

Relation(u),Interaction(“)),具体说明如下:

(4)Interaction(“):表示U的交互信息,包括(1)Background(“):表示U的背景信息,包含两种属性信息(gq发信息、评论信息).本文将它们U的3种属性信息(位置信息、标签信息、个人描述),分别表示为两个向量:转发向量Retweet(“)、评论均是短文本,可表示为字符串.Background(U)一

向量Comment(U).Interaction(U)={Retweet(U),{Place(“),Tag(“),Introduction(“)}.

Comment(“)).具体方法是:将所有用户编号{0,1,


  本文关键词:微博用户的相似性度量及其应用,由笔耕文化传播整理发布。



本文编号:232071

资料下载
论文发表

本文链接:https://www.wllwen.com/wenshubaike/xxkj/232071.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户23693***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com