当前位置:主页 > 社科论文 > 图书档案论文 >

多语言社会化标签聚类及可视化研究

发布时间:2017-05-02 21:07

  本文关键词:多语言社会化标签聚类及可视化研究,,由笔耕文化传播整理发布。


【摘要】:协同标注系统(folksonomy)是Web2.0网站中由相互关联的用户、资源和标签组成的注释结果的一个集合,其重要基础是:一个用户可以自定义多个用户标签来描述网络资源。通常的社会化标签系统中标签是用户标注的结果,也有一些网站提供抽取标签的自动推荐功能(本文定义为机器生成标签)。当前的标签生成研究对其内容与社会化属性的结合研究仍不够深入。标签的个性化和模糊化特征使得社会化标签系统中存在大量无用、冗余以及语义不明确的标签。同时,标签在Web文本的聚类方面的应用多为单语言Web文本聚类且只把标签作为聚类的补充。针对以上问题,本文以多语言的社会化标签聚类及可视化为研究目标,从社会化标签提取、聚类与可视化以及社会化标签在文本聚类中的应用等几个方面进行了研究。具体研究内容包括如下三个方面:首先,在社会化标签属性的研究中,本文将标签分为两类,用户标注标签和机器抽取标签,并分别对结合内容属性与社会化属性的两类标签的聚类结果进行分析与讨论。实验结果表明内容与用户特征的结合能够在用户分类的情况下能够提高标签聚类结果,满足对用户的个性化标签聚类结果的需要。’其次,在多语言标签聚类与可视化研究中,本文采用更全面的标签特征抽取方法,即通过内容与社会化属性的结合来提高抽取标签的质量,结合用户标注标签,优化最终的标签聚类效果,并对网络资源进行多语言标签映射,并实现其可视化。实验结果表明对于平行语料的两种多语言标签聚类方法,单语言二次聚类结果优于混合标签的一次聚类结果。平行语料的多语言标签聚类结果优于可比语料基于双语词典映射的多语言标签聚类结果。最后,在社会化标签的应用研究中,本文针对传统文本聚类的不足,将社会化标签引入到文本聚类中。比较基于文本内容、基于用户标签及不同的加权算法的结合,分析不同语言文本聚类结果的差异,实验结果表明选用不同的特征抽取方法和不同的加权方法中的文本聚类结果表现不同。在Web文本聚类中,内容特征与社会化特征的结合能够对文本聚类起到改善作用,应重视社会化特征在Web文本聚类中的作用和意义。另外通过机器翻译和二次聚类的方法,得到多语言文本的聚类结果。通过以上三个方面的研究,本文基本实现了多语言社会化标签聚类及可视化,该研究对在多语言网站上的标签聚类及应用研究具有参考价值。
【关键词】:社会化标签 标签抽取 标签聚类 聚类结果可视化 Web文本聚类
【学位授予单位】:南京理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1;G252.7
【目录】:
  • 摘要5-6
  • Abstract6-13
  • 1 绪论13-20
  • 1.1 研究背景与意义13-17
  • 1.2 本文主要研究内容17-19
  • 1.3 本文创新点19
  • 1.4 本文组织结构19-20
  • 2 相关文献综述20-31
  • 2.1 关键词与标签自动抽取研究概述20-23
  • 2.1.1 关键词自动抽取研究概述20-22
  • 2.1.2 标签自动抽取研究概述22-23
  • 2.2 标签相似度研究概述23-24
  • 2.2.1 基于标签与外部资源的相似度23
  • 2.2.2 基于标签所标注资源的相似度23-24
  • 2.2.3 标签和资源构成的关系图24
  • 2.3 聚类分析研究概述24-26
  • 2.3.1 聚类方法概述24-26
  • 2.3.2 标签聚类概述26
  • 2.4 标签云图生成研究概述26-29
  • 2.4.1 标签云图的表现方法26-27
  • 2.4.2 标签云图的表现形式27-29
  • 2.5 标签在文本聚类中的应用研究概述29-30
  • 2.5.1 基于用户标签的文本聚类方法29-30
  • 2.5.2 基于内容和标签的文本聚类方法30
  • 2.6 本章小结30-31
  • 3 标签属性对标签聚类的影响研究31-43
  • 3.1 用户标注标签的特征研究31-39
  • 3.1.1 研究流程图31-32
  • 3.1.2 关键技术说明32-34
  • 3.1.3 实验结果与分析34-39
  • 3.2 机器抽取标签的特征研究39-42
  • 3.2.1 研究流程图39-40
  • 3.2.2 关键技术说明40
  • 3.2.3 实验结果与分析40-42
  • 3.3 本章小结42-43
  • 4 中英文标签聚类及标签云图生成研究43-55
  • 4.1 研究流程图43-44
  • 4.2 关键技术说明44-46
  • 4.2.1 数据预处理44
  • 4.2.2 标签特征选择44
  • 4.2.3 中英文标签聚类及映射44-45
  • 4.2.4 标签云图生成45-46
  • 4.3 实验结果与分析46-53
  • 4.3.1 实验数据概述46-47
  • 4.3.2 实验结果分析47-49
  • 4.3.3 标签云图展示49-53
  • 4.4 本章小节53-55
  • 5 标签在中英文文本聚类中的应用研究55-61
  • 5.1 研究流程图55-56
  • 5.2 关键技术说明56-58
  • 5.2.1 数据预处理56-57
  • 5.2.2 文本表达和特征抽取57
  • 5.2.3 文本相似度计算与加权及聚类实现57-58
  • 5.3 实验结果与评测58-60
  • 5.3.1 实验数据58
  • 5.3.2 实验结果与分析58-60
  • 5.4 本章小结60-61
  • 6 结论与展望61-63
  • 6.1 研究总结61-62
  • 6.2 研究展望62-63
  • 致谢63-64
  • 参考文献64-71
  • 附录A:个人简介71-72
  • 附录B:平行语料多语言标签聚类结果72-78
  • 附录C:可比语料多语言标签聚类结果78-82
  • 附录D:多语言文档聚类结果82-88

【参考文献】

中国期刊全文数据库 前3条

1 徐少同;;网络信息自组织视角下的Folksonomy优化[J];图书情报工作;2009年10期

2 钟青燕;苏一丹;梁胜勇;;基于层次聚类和语义的标签推荐研究[J];微计算机信息;2010年36期

3 周津;陈超;俞能海;;采用对象特征向量表示法的标签聚类算法[J];小型微型计算机系统;2012年03期


  本文关键词:多语言社会化标签聚类及可视化研究,由笔耕文化传播整理发布。



本文编号:341685

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/341685.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6d8b0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com