XML文档数据集聚类问题研究

发布时间:2017-07-19 23:00

  本文关键词:XML文档数据集聚类问题研究


  更多相关文章: 数据挖掘 半结构化数据 文档聚类 层数 boosting


【摘要】:XML文档是典型的半结构化数据,XML是可扩展标记语言(eXtensibleMarkup Language)的英文简称。在1998年,万维网联盟W3C就开发并制定XML的标准并提出了XML格式,即XML1.0标准,并同时提出了文档定义类型DTD(Document Type Definition)标准和规范。XML数据是典型的半结构化数据,具备层次特性及动态可变特性和自述特性等半结构化数据的一般基本属性。 随着计算机网络技术的发展,以XML格式为代表的半结构化数据被广泛应用于各种数据库系统中。目前,可以在网络中获得大量的XML文档数据,而如何在这些的基于XML文档类型的海量数据中挖掘出来用户关注的知识,即XML文档数据挖掘已经成为新时期数据挖掘领域研究的热点问题之一。 在XML文档数据挖掘研究领域,XML文档数据集聚类问题是研究重点之一。XML文档聚类问题主要研究如何将具有相似特征的XML文档归为一簇,主要用于对具有相似特征的XML文档数据集进行数据分析。在进行XML文档数据集聚类之前,如何有效准确的衡量两篇XML文档数据或多篇XML文档数据间的相似程度(距离)是需要解决的重要问题,当考虑XML文档内容信息和领域知识后,正确的衡量XML文档数据集中各个元素的相似程度变得更加复杂。可以说,XML文档数据相似性度量算法的优劣直接影响XML文档数据集聚类结果的质量高低。 本文归纳总结了目前已提出XML文档聚类问题的解决方法。首先简单介绍了XML文档聚类的核心问题,即XML文档相似性度量问题。其次从树编辑距离相似性度量方法的角度列举了相关的聚类方法。之后从信息检索相似性度量方法的角度列举了相关的聚类算法。最后列举了基于其他理论方法进行相似性度量的XML文档聚类方法。 在第三章,本文提出了一种基于层次数据的XML文档聚类方法,称为CXLI算法。CXLI算法过程首先创建XML文档的线性数构表,然后根据线性结构表的信息将文档中的重复嵌套结构删除。在本文中,还提出了在考虑层数信息的前提下,XML文档各种基本编辑操作约束条件。之后,提出一种使用动态规划方法的带有XML文档层数信息文档间相似性度量方法,该方法在进行XML文档间相似性度量时,将XML文档数据的层数作为影响XML文档相似度的因素进行计算。CXLI方法可以用于计算XML文档相似度的所有应用领域中。最后,提出了基于凝聚型层次聚类思想的XML文档数据集聚类方法。计算机验证实验在人工数据集和ACM Sigmod真实数据集中进行,实验结果显示了本文提出的方法是有效的。 在第四章,为了进一步提高聚类结果的正确率,提出了一种基于boosting理论的XML文档聚类方法。首先讨论了Boosting能够提高聚类质量(尤其是弱聚类算法)的基本原理。然后,提出了一个命名为ICBQ的算法用来有效的提高XML文档数据集聚类方法的聚类质量。通过实验表明,我们的方法具有很好的效率,并且具有更高的准确率,基于Boosting理论的能够有效地提高XML文档的聚类结果,实验结果表明,,无论在真实数据集还是在人工生成的数据集上,使用ICQB方法都能够使得Nierman的方法、Dalamagas的方法和Flesca的方法聚类结果有明显的提高。
【关键词】:数据挖掘 半结构化数据 文档聚类 层数 boosting
【学位授予单位】:吉林大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP311.13
【目录】:
  • 摘要4-6
  • Abstract6-10
  • 第1章 绪论10-20
  • 1.1 研究背景及意义10-12
  • 1.2 知识基础12-17
  • 1.2.1 XML 类型12-13
  • 1.2.2 XML 数据模型13-14
  • 1.2.3 树型数据结构14-15
  • 1.2.4 XML 数据模式15-17
  • 1.2.5 XML 数据特点17
  • 1.3 本文组织结构17-18
  • 1.4 本章小结18-20
  • 第2章 XML文档聚类理论基础20-44
  • 2.1 XML 文档相似性度量简介20-21
  • 2.2 树编辑距离度量方法21-29
  • 2.2.1 树编辑距离基本概念21-24
  • 2.2.2 树编辑距离研究现状24-29
  • 2.3 信息检索度量方法29-35
  • 2.3.1 XML 文档相似性度量信息检索方法介绍29
  • 2.3.2 信息检索研究现状29-35
  • 2.4 XML 相似度的其它技术35-43
  • 2.4.1 基于 XML 结构的度量方法35-38
  • 2.4.2 基于 XML 文档结构和内容度量方法38-43
  • 2.5 本章小结43-44
  • 第3章 基于层数信息的XML文档聚类44-60
  • 3.1 问题提出45-47
  • 3.1.1 相关工作45-46
  • 3.1.2 层数信息问题描述46-47
  • 3.2 考虑层数信息的 CXLI 算法47-54
  • 3.2.1 符号表示47-48
  • 3.2.2 元素属性处理48-50
  • 3.2.3 线性结构表50-51
  • 3.2.4 编辑操作约束51-52
  • 3.2.5 相似性度量与聚类52-54
  • 3.3 CXLI 算法实验结果与分析54-59
  • 3.3.1 实验环境与数据集54-55
  • 3.3.2 结果与分析55-59
  • 3.4 本章小结59-60
  • 第4章 基于BOOSTING的XML文档聚类方法60-72
  • 4.1 研究背景60-61
  • 4.2 相关工作61-63
  • 4.3 ICQB 算法63-66
  • 4.3.1 AdaBoost63
  • 4.3.2 ICQB 算法63-66
  • 4.4 实验结果与分析66-71
  • 4.5 本章小结71-72
  • 第5章 总结与展望72-74
  • 参考文献74-86
  • 攻读博士期间发表的学术论文86-88
  • 致谢88

【参考文献】

中国期刊全文数据库 前7条

1 高明霞;姚文集;毛国君;;XML数据流中面向聚类的指数直方图[J];北京工业大学学报;2011年08期

2 汪卫,周皓峰,袁晴晴,楼宇波,施伯乐;基于图论的频繁模式挖掘[J];计算机研究与发展;2005年02期

3 张

本文编号:565162


资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/565162.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a82cd***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com