社会化标注环境下的标签聚类方法研究

发布时间:2017-12-15 01:23

  本文关键词:社会化标注环境下的标签聚类方法研究


  更多相关文章: 社会化标注系统 标签聚类 谱聚类 主题模型 随机游走


【摘要】:作为互联网上用户搜索、组织、管理和共享网络资源的一种机制,社会化标注允许广大互联网用户在一个自由开放的环境中对自己感兴趣的网络资源依据自身的理解和喜好选择合适的标签进行标注,由此在用户、资源和标签之间产生了大量的标注信息。由于社会化标注具有自由化和公开性的特点,不同时间或背景下所产生的标注信息导致社会化标签存在语义模糊、歧义、稀疏、冗余等问题,造成标签组织的混乱和信息描述的不一致性,制约了社会化标注系统的应用。通过标签聚类有助于揭示标签的内在一致性和凝聚性,从而发现标签聚集体所隐含的共同信息、概念与知识,有助于标签的重新组织与应用。为此,本文以标注信息为基础数据资源,并扩展利用社会化标注系统中的资源内容等相关信息,研究标签聚类的相关方法,为基于标签聚类的其它相关研究与应用提供良好的基础。本文的主要研究内容如下:(1)提出基于共同共现群体相似度的标签谱聚类方法。其中,针对当前的标签相似度测量方法容易引起标签的语义信息丢失等问题,提出标签的共同共现群体相似度,从全局的角度完整地利用三元标注信息度量标签的语义相似性;为了缓解标注数据空间结构复杂所引起的标签数据分布不规则问题,在标签共同共现群体相似度的基础上提出谱聚类方法,利用谱聚类算法可以处理任意分布的数据且能收敛到全局最优解的优势实现标签的聚类。实验结果表明,基于共同共现群体相似度的标签谱聚类方法比当前主要的标签聚类方法具有更好的聚类效果。(2)提出基于LDA (Latent Dirichlet Allocation)模型的标签综合聚类方法。由于三元标注数据中用户的标注信息和资源的被标注信息之间所蕴含的标签语义具有关联性、重叠性与差异性等特点,为了完整揭示标签中隐藏的语义结构,从潜在主题的角度研究标签的聚类方法,提出标签的综合LDA主题模型及其聚类方法。将三元标注关系分割成“用户-标签”和“资源-标签”这两个二元关系,分别建立基于用户的标签主题模型和基于资源的标签主题模型,在此基础上,综合标签在这两类主题上的主题分配结果建立标签主题的二次学习模型,通过迭代学习出标签的混合主题并实现标签的聚类。该方法实现了标签整体语义的分割、重构与聚类识别。实验结果表明,基于LDA的标签综合聚类方法比其它标签聚类方法能够更好地聚类标签。(3)提出融合内容与链接分析的标签聚类方法。基于融合社会化标注环境中存在的多源相关信息有利于提升标签的主题识别能力与聚类质量这一假设,提出融合用户社会关系的标签LDA模型及其标签聚类方法,以及融合引用关系的资源内容与标签的联合LDA模型及其标签聚类方法,并在这两种LDA模型的基础上,提出融合内容与关系的标签综合LDA模型及其标签聚类方法。其中:融合用户社会关系的标签LDA模型及其标签聚类方法通过建模用户的社会关系,构建基于用户加权的标签LDA模型以实现标签的聚类;融合引用关系的资源内容与标签的联合LDA模型及其标签聚类方法通过建模资源的引用关系,构建基于资源加权的词与标签的联合LDA模型以实现标签的聚类;融合内容与关系的标签综合LDA模型及其标签聚类方法在获取基于用户加权的标签主题和基于资源加权的标签主题的基础上,构建标签主题的二次学习模型学习出标签的混合主题并实现标签的聚类。实验结果表明,这三种标签聚类方法在各自的领域范围内比其它的标签聚类方法能够获取更好的聚类结果。
【学位授予单位】:合肥工业大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP391.1


本文编号:1290119

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1290119.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户111ca***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com