XML文档聚类研究与应用

发布时间:2020-09-01 15:58
   XML(e Xtensible Markup Language)是因特网中信息描述、传输和交换的重要标准,而XML文档聚类是众多XML文档整合和管理技术中关注的焦点,其目标是有效整合XML文档使之便于存储和传输。相似度计算则是XML文档聚类的关键步骤,而传统XML文档相似度计算方法中,树编辑距离算法时间复杂度较高,元素比较法丢失文档结构特性,边与路径比较法过于局限,扩展性差,而向量空间计算法虽计算简便,但多数算法因其特征权重设定导致无法完整保留文档结构特性。论文着眼于XML文档的特征权重设定,分别从相似度计算和聚类算法选择两方面进行研究,并取得了如下成果:1、论文研究了计算XML文档相似度的pq-gram算法。XML文档的结点在不同XML文档树中所处层次以及本层次中位置都会有所不同,而这些不同正是XML文档结构特性的一种体现,但pq-gram算法在提取pq-gram时未考虑这一点。鉴于此,论文提出了一种新的带权pq-gram算法,通过全面考虑XML文档树中结点的层次及位置,结合其父节点所处的位置,为XML文档结点以及pq-gram设计了全新的权重设定方法,并在权重设定的基础上改进了其相似度计算方法。最后通过聚类算法对三个真实数据集进行聚类,比较聚类精度的优劣以及各聚类簇之间的相似度。2、在此基础上,论文进一步研究了常见的XML文档特征向量提取方法,发现大多数特征提取算法只是针对XML文档结构特性对特征进行权重设定,未考虑各特征之间是存在偏好关系的。事实上,XML聚类不能完全通过结点在XML文档中的层次来判定它对于聚类的重要性。论文在此基础上研究了基于特征偏好的聚类(Clustering with feature order preference,CFP)算法。论文在带权pq-gram算法对XML文档进行特征向量提取的基础上,结合CFP算法,提出了基于特征偏好的XML文档聚类(CXFP)算法。CXFP算法可结合pq-gram权重以及特征偏好权重两个方面,并利用CFP算法的特点,在聚类过程中动态调整特征偏好权重。实验表明CXFP算法通过加入了特征偏好,可显著提高聚类的精度。3、分析了当前国内机场噪声现状,并介绍了对其分析研究的必要性,在此基础上,将CXFP算法应用于机场噪声数据的聚类中,根据不同的聚类需求为数据特征设定偏好权重,实验结果表明,CXFP算法较之其他聚类算法可以取得较优的聚类效果。
【学位单位】:南京航空航天大学
【学位级别】:硕士
【学位年份】:2015
【中图分类】:TP391.1

【相似文献】

相关期刊论文 前10条

1 刘远超;王晓龙;徐志明;关毅;;文档聚类综述[J];中文信息学报;2006年03期

2 王晓东;郭雷;方俊;杨宁;邓涛;;一种基于本体的抽象度可调文档聚类[J];计算机工程与应用;2007年29期

3 王李冬;魏宝刚;袁杰;;基于概率主题模型的文档聚类[J];电子学报;2012年11期

4 王升明,李淼;一种基于改进的自组织特征映射网络的文档聚类方法[J];计算机工程与应用;2005年03期

5 孙永林;刘仲;;基于动态区间映射的文档聚类算法[J];计算机科学;2010年06期

6 陈媛媛;屈志毅;张恒龙;廖绍雯;;一种初值优化的K-均值文档聚类算法(英文)[J];江西师范大学学报(自然科学版);2008年02期

7 孙霞;张玉生;;基于模式元素的文档聚类方法研究[J];常熟理工学院学报;2012年08期

8 宋江春,沈钧毅,宋擒豹;一个基于关联规则的多层文档聚类算法[J];计算机应用;2005年07期

9 赵卫中;马慧芳;李志清;史忠植;;一种结合主动学习的半监督文档聚类算法[J];软件学报;2012年06期

10 吴景岚,刘燕,朱文兴;一个K-均值文档聚类的改进算法[J];闽江学院学报;2004年02期

相关会议论文 前10条

1 唐国瑜;夏云庆;张民;郑方;;基于跨语言广义向量空间模型的跨语言文档聚类方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

2 周水庚;孙敬宇;胡运发;;一种文档聚类新方法[A];第十六届全国数据库学术会议论文集[C];1999年

3 刘众奇;袁晓洁;张海威;杨娜;王敏辉;;阈值区间:一种基于XCLS和XCLSE的改进方案[A];第二十五届中国数据库学术会议论文集(二)[C];2008年

4 原福永;杨治秋;王海霞;;一种基于向量空间模型的文档聚类算法研究[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年

5 王晓宇;钱卫宁;张龙;周傲英;;XML DTD文档聚类研究[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年

6 马辉民;李卫华;;Web文档聚类系统的实现方法探析[A];第10届计算机模拟与信息技术会议论文集[C];2005年

7 伍赛;杨冬青;韩近强;张铭;王文清;冯英;;WCM:一种基于单词相关度的文档聚类新方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

8 李文波;孙乐;;在查询反馈中改善文档聚类效果的策略研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

9 刘振鹿;王大玲;冯时;张一飞;方东昊;;一种基于LDA的潜在语义区划分及Web文档聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年

10 汪洋;张磊;章毅;;基于短语匹配的中文Web文档聚类算法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

相关博士学位论文 前5条

1 杨剑锋;适合并行的无干预文档聚类算法研究[D];武汉大学;2010年

2 刘铭;大规模文档聚类中若干关键问题的研究[D];哈尔滨工业大学;2010年

3 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年

4 丁铁楠;XML文档聚类及其评估问题研究[D];吉林大学;2015年

5 周

本文编号:2809944


资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2809944.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c5e7b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com