XML文档聚类及其评估问题研究

发布时间:2017-01-02 18:40

  本文关键词:XML文档聚类及其评估问题研究,由笔耕文化传播整理发布。


《吉林大学》 2015年

XML文档聚类及其评估问题研究

丁铁楠  

【摘要】:随着计算机网络技术的发展和互联网络用户的增加,半结构化数据被广泛应用。万维网联盟W3C制定的可扩展标记语言XML是典型的半结构化数据。XML格式因其层次性、自述性、动态可变性等特点被广泛的使用,从Microsoft Office2007版本以后,Microsoft Office开始使用一种基于XML格式的OpenXML格式存储办公文档,而在Linux操作系统中,OpenDocument也使用基于XML格式的OpenOffice格式存储办公文档,根据万维网联盟,在下一代Web中,已经确定指出由XML格式取代HTML成为页面交换的标准格式。 面对海量XML文档数据,如何从海量XML文档数据库中挖掘用户感兴趣的知识成为数据挖掘领域研究热点之一。而XML文档聚类问题就是XML文档数据挖掘研究的问题之一。XML文档聚类问题主要研究如何将具有相似特征的XML文档归为一簇,主要用于对具有相似特征的XML文档数据集进行数据分析。 本文研究了一种针对静态XML文档数据的聚类方法。针对静态XML文档数据集,提出了一种基于XML文档树形结构数据集频繁模式的文档聚类方法。首先,提出了可以为XML文档进行编码的编码树结构(coding tree structure)。然后,使用挖掘的XML数据频繁模式为数据特征,使用余弦相似性度量方法和凝聚型层次聚类方法对XML文档数据集进行聚类。因为XML频繁模式数据集是原始XML文档数据集的子集,所以在XML文档频繁模式显著的数据集中,XML文档相似性度量的时间消耗被显著地降低了。经过计算机真实实验显示了本文算法具有良好的聚类结果并且具有良好的可扩展性。 随后,本文研究了一种动态XML文档数据集的聚类方法。针对动态XML文档数据集特点,首先,提出带有时间版本参数的TDOM模型,TDOM模型能够记录XML文档数据在动态变化过程中历史变化过程,然后提出了XML文档显著频繁变化模式的定义,提出了在TDOM数据集中挖掘显著频繁变化模式的方法,最后,提出了一种基于显著频繁变化结构的动态XML文档数据集聚类方法。经过计算机真实实验显示了本文算法能够通过动态特征完成动态XML文档数据集的聚类任务并且具有良好的聚类结果和良好的可扩展性。 聚类性能的评价是数据挖掘和机器学习领域中的一个热点问题。注意到当前几乎所有的评价指标都忽视了预测概率,而预测概率在聚类算法的评价过程中有着非常重要的作用。在本文中,将首先构造了一个加权的混淆矩阵,来反映预测概率的相关信息。之后,在该加权混淆矩阵的基础上,,考虑到了预测概率并重新定义了传统的评价指标,例如,准确度,精密度,召回率,F-指标等。此外,研究了这些重新定义的评价指标的性能。实验结果表明,在区分度方面,重新定义的评价指标优于传统的评价指标。 最后,研究了基于ROC(receiver operating characteristic,受试者工作特征)曲线的聚类模型性能的评价问题。首先,我们提出了加权正确实例对映射的概念。然后,在加权正确实例对映射的基础上,我们提出了一个新的评价指标。该指标的优点在于,它对分布不均匀的类不敏感,具有鲁棒性,而且有足够的区分度。实验结果表明,本章所提出的指标具有可靠性。本章所介绍的工作可能会推动模型设计领域的新研究,比如,设计新的基于优化的聚类模型或排序模型。

【关键词】:
【学位授予单位】:吉林大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP311.13
【目录】:

下载全文 更多同类文献

CAJ全文下载

(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

CAJViewer阅读器支持CAJ、PDF文件格式


【参考文献】

中国期刊全文数据库 前10条

1 高明霞;姚文集;毛国君;;XML数据流中面向聚类的指数直方图[J];北京工业大学学报;2011年08期

2 李巍;孙涛;叶苑苑;李雄飞;李楠;;基于冰冻结构的XML文档聚类研究[J];吉林大学学报(信息科学版);2009年06期

3 李巍;孙涛;陈建孝;罗梓恒;李雄飞;;基于加权余弦相似度的XML文档聚类研究[J];吉林大学学报(信息科学版);2010年01期

4 赵传申;孙志挥;张净;;基于投影分支的快速频繁子树挖掘算法[J];计算机研究与发展;2006年03期

5 张翀;唐九阳;肖卫东;汤大权;;基于簇核心的XML结构聚类方法[J];计算机研究与发展;2011年11期

6 康琪;马军;;有向标记根树之间的语义编辑距离[J];模式识别与人工智能;2011年06期

7 李巍;李雄飞;郭建芳;;XML空间频繁变化结构挖掘方法[J];计算机学报;2013年02期

8 刘显敏;李建中;;基于键规则的XML实体抽取方法[J];计算机研究与发展;2014年01期

9 刘兆军;赵浩宇;王婧;李雄飞;李巍;;考虑层数信息的XML文档聚类方法[J];吉林大学学报(工学版);2014年01期

10 Binxing Fang;Yan Jia;Yi Han;Shasha Li;Bin Zhou;;A survey of social network and information dissemination analysis[J];Chinese Science Bulletin;2014年32期

【共引文献】

中国期刊全文数据库 前10条

1 高明霞;姚文集;毛国君;;XML数据流中面向聚类的指数直方图[J];北京工业大学学报;2011年08期

2 谭龙;陈冠;王思源;孟兴民;;逻辑回归与支持向量机模型在滑坡敏感性评价中的应用[J];工程地质学报;2014年01期

3 赵健;;基于MVC的网络信息安全模型设计[J];电脑知识与技术;2013年34期

4 沈小乐;邵振峰;田英洁;;纹理特征与视觉注意相结合的建筑区提取[J];测绘学报;2014年08期

5 管业鹏;;复杂人机交互场景下的指势用户对象识别[J];电子学报;2014年11期

6 刘家辰;苗启广;曹莹;宋建锋;权义宁;;基于混合多样性生成与修剪的集成单类分类算法[J];电子与信息学报;2015年02期

7 彭宇;庞景月;刘大同;彭喜元;;大数据:内涵、技术体系与展望[J];电子测量与仪器学报;2015年04期

8 韩春成;冯俊;孟骁;林和平;;基于关系数据库理论的面向对象数据库系统[J];信息技术;2010年12期

9 王涛;;一种基于频繁子树的数据库索引方法[J];华中科技大学学报(自然科学版);2008年03期

10 张翀;唐九阳;肖卫东;汤大权;;基于簇核心的XML结构聚类方法[J];计算机研究与发展;2011年11期

中国重要会议论文全文数据库 前1条

1 刘众奇;袁晓洁;张海威;杨娜;王敏辉;;阈值区间:一种基于XCLS和XCLSE的改进方案[A];第二十五届中国数据库学术会议论文集(二)[C];2008年

中国博士学位论文全文数据库 前10条

1 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年

2 张翀;基于对等计算的分布式时空索引技术研究[D];国防科学技术大学;2011年

3 李专;数据库推理控制技术研究[D];华中科技大学;2006年

4 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年

5 李巍;半结构化数据挖掘若干问题研究[D];吉林大学;2013年

6 杨鑫;三维超声图像中颈动脉粥样硬化的表型量化与分析[D];华中科技大学;2013年

7 杨秋菊;基于全天空图像和紫外图像的极光事件检测与分析[D];西安电子科技大学;2013年

8 刘显敏;XML数据实体同一性相关技术的研究[D];哈尔滨工业大学;2013年

9 万建武;代价敏感降维及其人脸识别应用研究[D];南京师范大学;2013年

10 祁新帅;东亚特有间断分布植物蛛网萼属的生物地理学研究[D];浙江大学;2013年

中国硕士学位论文全文数据库 前10条

1 屈成伟;树形数据的频繁模式研究[D];吉林大学;2011年

2 颜一鸣;频繁子树挖掘在XML挖掘中的应用[D];湖南大学;2009年

3 杜尔斌;基于改进KNN的文本分类算法的设计与实现[D];上海交通大学;2010年

4 胡绵江;面向密码应用的定制处理器关键技术研究[D];国防科学技术大学;2011年

5 朱颖雯;频繁子树挖掘及其在XML挖掘中的应用研究[D];南京师范大学;2008年

6 刘波;嵌入频繁子树挖掘研究[D];西南交通大学;2008年

7 郭鑫;频繁子树挖掘及其相关技术的研究[D];扬州大学;2009年

8 旷玲丽;Web挖掘相关问题的研究[D];西南交通大学;2009年

9 孔鹏程;嵌入式与导出式频繁子树挖掘算法研究[D];太原科技大学;2009年

10 刘慧;基于KNN的中文文本分类算法研究[D];西南交通大学;2010年

【二级参考文献】

中国期刊全文数据库 前10条

1 朱永泰,王晨,洪铭胜,汪卫,施伯乐;ESPM——频繁子树挖掘算法[J];计算机研究与发展;2004年10期

2 汪卫,周皓峰,袁晴晴,楼宇波,施伯乐;基于图论的频繁模式挖掘[J];计算机研究与发展;2005年02期

3 雷景生;马军;靳婷;;基于分级神经网络的Web文档模糊聚类技术[J];计算机研究与发展;2006年10期

4 徐沛娟;李雄飞;惠玥;张桂林;;中文文本分类相关算法的研究与实现[J];吉林大学学报(理学版);2009年04期

5 姚文集;高明霞;毛国君;李广奎;;基于滑动窗口的XML数据流聚类算法[J];计算机工程;2010年13期

6 郑仕辉,周傲英,张龙;XML文档的相似测度和结构索引研究[J];计算机学报;2003年09期

7 马军;陈竹敏;赵嫣;雷景生;;基于部分-整体匹配的文档结构相似度计算[J];模式识别与人工智能;2007年05期

8 李建中;刘显敏;;大数据的一个重要方面:数据可用性[J];计算机研究与发展;2013年06期

9 马军,邵陆;模糊聚类计算的最佳算法[J];软件学报;2001年04期

10 金澈清,钱卫宁,周傲英;流数据分析与管理综述[J];软件学报;2004年08期

【相似文献】

中国期刊全文数据库 前10条

1 刘远超;王晓龙;徐志明;关毅;;文档聚类综述[J];中文信息学报;2006年03期

2 王晓东;郭雷;方俊;杨宁;邓涛;;一种基于本体的抽象度可调文档聚类[J];计算机工程与应用;2007年29期

3 王李冬;魏宝刚;袁杰;;基于概率主题模型的文档聚类[J];电子学报;2012年11期

4 王升明,李淼;一种基于改进的自组织特征映射网络的文档聚类方法[J];计算机工程与应用;2005年03期

5 孙永林;刘仲;;基于动态区间映射的文档聚类算法[J];计算机科学;2010年06期

6 陈媛媛;屈志毅;张恒龙;廖绍雯;;一种初值优化的K-均值文档聚类算法(英文)[J];江西师范大学学报(自然科学版);2008年02期

7 孙霞;张玉生;;基于模式元素的文档聚类方法研究[J];常熟理工学院学报;2012年08期

8 吴景岚,刘燕,朱文兴;一个K-均值文档聚类的改进算法[J];闽江学院学报;2004年02期

9 宋江春,沈钧毅,宋擒豹;一个基于关联规则的多层文档聚类算法[J];计算机应用;2005年07期

10 徐建民;成岳鹏;辛丽军;;一种基于术语簇和关联规则的文档聚类方法[J];计算机工程与应用;2007年05期

中国重要会议论文全文数据库 前10条

1 唐国瑜;夏云庆;张民;郑方;;基于跨语言广义向量空间模型的跨语言文档聚类方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

2 周水庚;孙敬宇;胡运发;;一种文档聚类新方法[A];第十六届全国数据库学术会议论文集[C];1999年

3 刘众奇;袁晓洁;张海威;杨娜;王敏辉;;阈值区间:一种基于XCLS和XCLSE的改进方案[A];第二十五届中国数据库学术会议论文集(二)[C];2008年

4 原福永;杨治秋;王海霞;;一种基于向量空间模型的文档聚类算法研究[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年

5 王晓宇;钱卫宁;张龙;周傲英;;XML DTD文档聚类研究[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年

6 马辉民;李卫华;;Web文档聚类系统的实现方法探析[A];第10届计算机模拟与信息技术会议论文集[C];2005年

7 伍赛;杨冬青;韩近强;张铭;王文清;冯英;;WCM:一种基于单词相关度的文档聚类新方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

8 李文波;孙乐;;在查询反馈中改善文档聚类效果的策略研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

9 刘振鹿;王大玲;冯时;张一飞;方东昊;;一种基于LDA的潜在语义区划分及Web文档聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年

10 汪洋;张磊;章毅;;基于短语匹配的中文Web文档聚类算法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

中国博士学位论文全文数据库 前5条

1 杨剑锋;适合并行的无干预文档聚类算法研究[D];武汉大学;2010年

2 刘铭;大规模文档聚类中若干关键问题的研究[D];哈尔滨工业大学;2010年

3 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年

4 丁铁楠;XML文档聚类及其评估问题研究[D];吉林大学;2015年

5 周翀;搜索引擎中文档聚类方法研究[D];华中科技大学;2009年

中国硕士学位论文全文数据库 前10条

1 胡国标;汉语言网络统计特性与半监督文档聚类算法研究[D];复旦大学;2008年

2 黄发良;基于知识粒度的Web文档聚类研究[D];广西师范大学;2005年

3 孙春红;嵌入分布信息的Web文档聚类算法研究[D];南京师范大学;2008年

4 袁莉;基于句子级最大频繁单词集的Web文档聚类研究[D];华中科技大学;2007年

5 莫骁;基于WAF的文档聚类技术研究[D];北京邮电大学;2013年

6 滕海明;基于语义标记树的XML文档聚类研究[D];浙江大学;2011年

7 李卫华;面向B2C的Web文档聚类系统研究[D];华中科技大学;2005年

8 王云峰;基于bit化深度差序列的XML文档聚类问题研究[D];吉林大学;2014年

9 刘振鹿;基于LDA的潜在语义空间分析及Web文档聚类的研究与实现[D];东北大学;2010年

10 赵斌;Web挖掘中的XML文档聚类研究[D];山东师范大学;2009年


  本文关键词:XML文档聚类及其评估问题研究,由笔耕文化传播整理发布。



本文编号:232155

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/232155.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c25b1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com