当前位置:主页 > 科技论文 > 软件论文 >

模糊XML文档与模糊DTD相似性研究

发布时间:2019-08-15 12:10
【摘要】:在模糊XML数据管理中,模糊XML文档和模糊DTD的相似性是模糊XML数据整合、模糊XML文档聚类的关键步骤.为了研究模糊XML文档和模糊DTD的相似性,对模糊DTD树进行了规则变换,主要解决元素和属性的析取约束和基数约束问题,即由析取范式转化为合取范式,将元素或属性的重复次数确定化,然后利用树编辑距离算法对模糊XML文档树和转化后的模糊DTD树集合进行相似性对比.通过实验验证了所提方法的性能优势.
【图文】:

实例图,XML文档,实例


用基于“隶属度和可能性分布”的模糊XML文档的表示模型[8].在这个模型中,一个元素可以有相关的隶属度.元素的隶属度意味着成为其父亲的孩子节点的可能性.而元素的属性值可以用概率分布来表示,并且这些值可以是析取的,也可以是合取的.下面给出一个模糊XML文档片段,如图1所示.模糊XML文档可以用树形结构来表示.按照DOM[9]模型,一个模糊XML文档也可以表示为一个单根的有序标签树,其中的节点对应文档中的元素和属性.本文只比较树的结构相似性,所以省略元素和属性的值.图1中文档的树结构如图2所示.1.2模糊DTD及树形表示模糊DTD作为模糊XML文档的语法结构,描述了模糊XML文档的结构框架.与非模糊DTD不同的是,模糊DTD引入了模糊构造子Dist,Val,Poss,Type.下面给出图1中模糊XML文档对应的模糊DTD,如图3所示.<collegeCName=“NEU”><ValPoss=0.8><departmentDName=“IST”><studentSID=“20130425”><age><DistType=“disjunctive”><ValPoss=0.8>26</Val><ValPoss=0.9>28</Val><ValPoss=0.8>29</Val></Dist></age><email><DistType=“conjunctive”><ValPoss=0.6>John@yahoo.com</Val><ValPoss=0.8>John@qq.com</Val><ValPoss=0.5>john@sina.com</Val></Dist></email></student></department></Val></college>图1模糊XML文档实例Fig.1SampleofafuzzyXMLdocument图2模糊XML文档树实例Fig.2SampleofafuzzyXMLdocumenttree<!ELEMENTcollege(Val+)><!ATTLISTcollegeCNameIDREF#REQUIRED><!ELEMENTVal(department*)><!ATTLISTValPossCDATA“1.0”><!ELEMENTdepartment(student*)><!

实例图,实例,析取,基数


与模糊XML文档一样,模糊DTD也可以用树形结构来表示.图3中模糊DTD的树结构如图4所示.图4模糊DTD树实例Fig.4SampleofafuzzyDTDtree2模糊DTD树的转换规则由于模糊DTD中包含基数约束和析取约束,所以无法将其直接与模糊XML文档树进行相似性比较,需要对这些约束条件进行转换处理.2.1析取约束的转换析取约束“|”,表示该符号前后元素或属性不能同时出现,“|”即OR运算符.如果模糊DTD中包含“|”运算符,需要将其转换为多个不包含“|”的DTD集合.例如:表达式<!ELEMENTa(b,(c|d))>可以分解为<!ELEMENTa(b,c))>和<!ELEMENTa(b,d)>两个表达式,分别对应两个DTD.这一过程称为析取分解过程.用规则1来表示.规则1:处理D中析取约束“|”,对“|”两边的元素或属性进行选择,形成多个不包含“|”符号表达式的d,从而构成DTD集合Dset,d为Dset中的DTD.特殊地,对于模糊构造子Val,若该Val的父节点Dist下Type值为disjunctive,,表示Dist下的Val子树是不能同时出现的,相当于析取约束,即需要根据Type下的值判断Dist下的Val子树的个数.因为Val下子树表示的是属性和它的值,一般地,各个子树结构是相同的.为了不增加将来相似性比较的复杂度,本文选择只保留一个Val子树.2.2基数约束的转换规则模糊DTD中元素和属性的基数约束“*”,“+”,“?”是用来说明所约束元素或属性的可重复次数.如果用e来表示元素或属性,则e*表示e可以重复0到无限次,e+表示e可重复1次到无限次,e?表示e可重复0或1次.对于基数约束组合,可以用下面的原则来转换,以达到简化的目的.e++→e+,e**→e*,e*+→e*,e*?→e*,e?+→e*,e??→e?.也就是说,所有的基数约束组合最终都可以转化为e*,e+,e?.需要
【作者单位】: 东北大学计算机科学与工程学院;渤海大学信息科学与技术学院;
【基金】:国家自然科学基金资助项目(61370075) 教育部新世纪优秀人才支持计划项目(NCET-05-0288)
【分类号】:TP311.1

【相似文献】

相关期刊论文 前10条

1 陈晓鹏;XML让办公软件更兼容[J];中国计算机用户;2003年29期

2 张正强;论XML置标语言在电子文件管理中的功能与作用[J];档案学通讯;2004年04期

3 张昌宏;王晔;丁晟春;;基于XML的企业应用集成方法研究[J];舰船电子工程;2005年06期

4 李瑞敏;陆化普;史其信;;基于XML的交通综合信息平台研究[J];交通与计算机;2006年03期

5 罗霜梅;姚跃华;;基于XML的分布式异构数据库“主存”实现[J];计算机与数字工程;2007年03期

6 王红华;徐成杰;;基于XML技术的网络实验教学系统[J];大庆师范学院学报;2007年02期

7 孟伟东;;基于XML的企业管理信息系统[J];铜陵学院学报;2011年02期

8 赵金铃;谭献海;王亚兰;何磊;;基于XML的分布式异构数据库变化捕捉及动态同步系统实现[J];铁路计算机应用;2013年10期

9 吕腾,闫萍,王真星;XML函数依赖及其与键的关系[J];小型微型计算机系统;2005年09期

10 殷丽凤;赵硕;;XML局部函数依赖[J];齐齐哈尔大学学报;2005年04期

相关会议论文 前10条

1 孙韶杰;李国辉;赵薇;王伟;;基于XML和多媒体的交互式电子技术手册的设计和实现[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年

2 刘德喜;万常选;刘喜平;焦贤沛;;XML检索中的标签权重设置模型[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年

3 苏召;刘国华;;XML弱函数依赖及其可加性问题的研究[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年

4 唐敏;李昭原;;基于XML的Web数据库工具的设计与实现[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年

5 罗道峰;孟小峰;;一种面向XML文档的基于角色的扩展访问控制方法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

6 周进刚;赵大哲;纪勇;;一种XML规则语言及其实现[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年

7 金峰;陶晓鹏;胡运发;;XML函数约束规则的自动挖掘[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年

8 李东;张静玲;王亮明;;一种XML集成索引结构[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年

9 胡华全;吴玲达;邓莉琼;;基于XML的交互式动画剧本生成系统[A];第18届全国多媒体学术会议(NCMT2009)、第5届全国人机交互学术会议(CHCI2009)、第5届全国普适计算学术会议(PCC2009)论文集[C];2009年

10 韩哲;王宏志;高宏;李建中;骆吉洲;;基于聚簇的XML文档近似连接方法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

相关重要报纸文章 前3条

1 ;解密XML安全标准(上)[N];网络世界;2007年

2 郝峥嵘;XML服务数据深度利用[N];中国计算机报;2006年

3 李建华 周荣 李丽华;XML与数据库[N];计算机世界;2003年

相关博士学位论文 前4条

1 简(王争)峰;基于XML的异构产品信息网上交换、检索技术研究与应用[D];浙江大学;2002年

2 朴勇;基于XML的文本结构信息抽取与聚类研究[D];大连理工大学;2014年

3 王桐;XML内容路由关键技术研究[D];哈尔滨工程大学;2006年

4 向桂林;XML引擎研究[D];中国科学院研究生院(文献情报中心);2004年

相关硕士学位论文 前10条

1 王海平;XML集成方法的研究[D];东北大学;2013年

2 佟玲;基于XML的任务流编辑器的设计与实现[D];沈阳师范大学;2016年

3 郭玉珂;XML面向对象数据模型研究及应用[D];中南大学;2005年

4 朱治国;基于XML的异构构件库群协同检索中间层模型[D];哈尔滨工程大学;2007年

5 邱朋;XML函数依赖的传播与保持的研究[D];山东大学;2008年

6 张忆;基于XML的频繁模式发现研究[D];合肥工业大学;2006年

7 苏召;XML弱函数依赖与单依赖集合的研究[D];燕山大学;2007年

8 吕慧;基于开源平台和XML技术的网络考试系统的研究[D];西南交通大学;2002年

9 杨悦欣;基于XML技术的设施农业信息平台的研究[D];陕西科技大学;2006年

10 徐凯;基于XML用户界面管理系统的研究及应用[D];辽宁师范大学;2008年



本文编号:2526985

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2526985.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户18510***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com