基于标签流行度的社会化标注模型研究
发布时间:2019-04-19 17:42
【摘要】:随着Web2.0技术的不断成熟,以Del.icio.us、Last.fm、Flickr等社会化标注系统为代表的大众分类系统大量涌现,区别于传统分类体系,大众分类体系具有结构可见、分类灵活以及个性化明显等特点,因此对于这一类分类体系形成规律的研究引起了学术界特别是信息科学、计算机科学等领域的广泛关注。然而,关于大众分类的形成机制及内在成因一直是科学界广泛探讨但至今没有形成共识的一个重要课题。大众分类实质上是不同社会个体知识由分散到汇聚的过程,即集体智慧的涌现,鉴于此特点本文采用基于Agent的建模方法对社会化标注系统中标注动力学机制展开模型研究。 大众分类的形成依托于用户的社会化标注行为,对其形成机制的考察关键在于深入理解用户的标注行为规律。已有的研究大多从直观的用户行为角度出发,提出用户标注行为的动力模型,并从资源共现标签频率分布特征以及系统中不同标签规模增长两方面加以验证模型的合理性。本文通过考察资源标签流的分布特点对用户标注行为进行了分析,从用户基于背景知识的标注行为和标签的系统推荐两方面提出了社会化标注动力学模型,并利用该模型对现实资源上的标签频率分布进行了多组数据拟合验证,结果表明本文所提出的社会化标注模型可以比较有效的反映现实资源标签流的特点,也进一步说明本文对于用户标注行为分析的合理性。本文的研究内容的创新性主要体现在以下三方面: (1)从实际数据分析入手,针对Del.icio.us社会化标注系统中的资源上标签频率分布进行分析,观察到与以往研究中提到的幂律分布的不同的分布特征,即分段的幂律特征和近似“平台”的结构特征,并分析“平台”上的标签可能是由于社会化标注系统中的标签推荐机制作用产生的; (2)以往的标注动力模型通常把用户的标注行为理解为用户针对某一资源的整体特征构建标签。在本文所提的模型中,把用户标注行为进一步分解为:用户针对资源的某一个维度的属性构建标签;每个资源具有多维属性,从而标识不同的资源特性。对基于Agent仿真结果的分析表明:不同社会化标注系统中对资源的认知程度不同,用户具有知识背景差异的标注行为可能是导致资源上标签标注频率出现分段幂律分布的主要原因; (3)在模型的数据验证工作中,首先,以往的研究多采用资源共现标签频率分布特征以及系统中不同标签规模增长两个方面作为考察指标对模型进行考察,而在本文的研究工作中,使用资源上的标签频率分布作为考察指标,并得到了较以往研究更为贴近现实情况的拟合结果;其次,本文采用来自不同的社会标注系统,即Del.icio.us、Last.fin及Flickr中的实际用户标注数据对模型进行检验,结果表明,模型具有很好的适应性和可扩展性。 本文提出的模型对于深入理解用户对资源的多样化描述到最终达成共识这一集体智慧的涌现过程具有重要的理论意义,同时对于构建合理的大众分类体系,提高社会导航检索效率、以及用户接口的合理设计也具有很强的现实意义。
[Abstract]:......
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.09
本文编号:2461142
[Abstract]:......
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.09
【参考文献】
相关期刊论文 前5条
1 陈祖琴;葛继科;;Web2.0环境中基于社会标注的个性化推荐系统模型研究[J];电子商务;2012年02期
2 韩敏;唐常杰;段磊;李川;巩杰;;基于TF-IDF相似度的标签聚类方法[J];计算机科学与探索;2010年03期
3 翟爽;宋文;;社会标签进展研究概述[J];图书情报工作;2010年20期
4 钟青燕;苏一丹;梁胜勇;;基于层次聚类和语义的标签推荐研究[J];微计算机信息;2010年36期
5 陈禹;复杂性研究的新动向——基于主体的建模方法及其启迪[J];系统辩证学学报;2003年01期
,本文编号:2461142
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2461142.html