识别和抽取XM L文档中的关系信息及其出现模式
本文选题:关系信息 + XML相似度 ; 参考:《清华大学学报(自然科学版)》2005年S1期
【摘要】:W eb中存在着大量描述实体间相互关联的信息,而目前的搜索引擎缺乏知识的处理和理解能力,无法对W eb中的关系信息进行识别。该文以XM L作为研究对象,提出了一种XM L文档中识别和抽取关系信息及其出现模式的方法。该方法按照用户的挖掘请求搜集XM L文档;通过计算XM L文档的相似度来识别目标文档;建立用户挖掘模式并与目标文档进行模式匹配实现关系数据的抽取。实验结果表明提出的XM L相似度计算方法能较好的实现目标文档的识别,同时采用的模式表达和匹配方式也能较准确地从目标文档中抽取出用户所需的关系数据。
[Abstract]:There are a large number of information describing the interrelation between entities in Web, but the current search engine lacks the ability to process and understand knowledge, so it is unable to identify the relational information in Web. This paper presents a method to identify and extract relational information and its occurrence patterns in XML documents. The method collects XM1 documents according to users' mining requests; identifies target documents by calculating the similarity of XML documents; establishes user mining patterns and accomplishes relational data extraction by pattern matching with target documents. The experimental results show that the proposed XML similarity calculation method can better realize the recognition of target documents, and the schema representation and matching method can extract the relational data required by users from the target documents more accurately.
【作者单位】: 华侨大学计算机科学系 华侨大学计算机科学系
【基金】:国务院侨办科研基金资助项目(03QZR5) 福建省科技计划资助项目(2004I014)
【分类号】:TP311.13;
【参考文献】
相关期刊论文 前2条
1 张猛,王大玲,于戈;一种基于自动阈值发现的文本聚类方法[J];计算机研究与发展;2004年10期
2 徐如志,钱乐秋,程建平,王渊峰,朱三元;基于XML的软件构件查询匹配算法研究[J];软件学报;2003年07期
【共引文献】
相关期刊论文 前10条
1 王素格;彭其伟;张武;;基于遗传算法的自然语言参数阈值优化方法[J];测试技术学报;2006年01期
2 肖锟;陈世鸿;;基于标注的一种积件查询匹配算法(英文)[J];Journal of Southeast University(English Edition);2007年03期
3 索红光;杨涛;;基于互信息的Web文档聚类方法[J];广西师范大学学报(自然科学版);2007年02期
4 渠成建;陈立潮;潘理虎;张英俊;谢斌红;;基于术语编码和树匹配的构件检索方法研究[J];电脑开发与应用;2012年09期
5 余金山;;利用XML,Tamino和CORBA的软构件管理与检索技术[J];华侨大学学报(自然科学版);2008年04期
6 周必水;张延红;赵敬;;基于语法树的程序正确性验证模型及算法设计[J];杭州电子科技大学学报;2006年01期
7 刘磊;张银平;;一种基于描述逻辑的构件检索匹配算法[J];吉林大学学报(工学版);2008年03期
8 何飞;蒋冬初;向继文;;教学构件的检索与匹配[J];吉首大学学报(自然科学版);2007年05期
9 孟闻天,张维石,史金余,张秀国;一种基于刻面分类描述的软件构件查询方法[J];计算机工程与应用;2005年12期
10 叶庆卫,汪同庆;基于二叉树相似性检测的变形文字识别研究[J];计算机工程与应用;2005年31期
相关会议论文 前4条
1 朱治国;孙长嵩;;一个异构构件库群联合检索模型[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
2 向继;荆继武;高能;;一种自动搜索阈值的中文文本层次聚类方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
3 施炜;贾晓辉;邓志凌;乐嘉锦;;构件检索的刻面索引研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
4 蔡嘉荣;印鉴;刘玉葆;黄志兰;;一种有效的文本聚类算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
相关博士学位论文 前10条
1 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
2 席琳;形式化方法在构件组装实时系统中的应用研究[D];郑州大学;2012年
3 徐如志;基于复用的软件过程改进方法与优化控制技术研究[D];复旦大学;2004年
4 陈珂;面向批量定制的产品协同开发技术研究[D];四川大学;2005年
5 徐德智;XML数据库查询及其模式集成研究[D];中南大学;2004年
6 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
7 郭军;产品线架构中支持软件复用的若干关键技术的研究[D];东北大学;2006年
8 陈德华;基于对等网络的分布式构件库系统若干关键技术研究[D];东华大学;2006年
9 常娥;古籍智能处理技术研究[D];南京农业大学;2007年
10 尹泽明;基于服务组合、支持业务质量感知的电信业务提供若干关键问题研究[D];北京邮电大学;2008年
相关硕士学位论文 前10条
1 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
2 柯昌博;基于构件的软件产品线技术研究[D];昆明理工大学;2010年
3 曲剑;可重构路由交换平台构件检索技术研究[D];解放军信息工程大学;2010年
4 王奕;元数据技术在科技资源数据库查询中的应用研究[D];石家庄铁道学院;2008年
5 曹根;基于产品线的构件组装技术的研究与应用[D];东华大学;2011年
6 宋士涛;基于本体与刻面相结合的构件检索研究[D];山东师范大学;2011年
7 刘铭;XML相关技术研究[D];电子科技大学;2011年
8 田容雨;基于软件构件技术的Web系统开发平台的研究[D];山东大学;2011年
9 李燕;基于构件的嵌入式PLC硬件电路设计平台的研究与设计[D];杭州电子科技大学;2009年
10 沈杰;基于蚁群算法的中文文本聚类研究[D];杭州电子科技大学;2009年
【二级参考文献】
相关期刊论文 前2条
1 常继传,李克勤,郭立峰,梅宏,杨芙清;青鸟系统中可复用软件构件的表示与查询[J];电子学报;2000年08期
2 苏中,马少平,杨强,张宏江;基于Web-Log Mining的Web文档聚类[J];软件学报;2002年01期
【相似文献】
相关期刊论文 前10条
1 雷庆;吴扬扬;缑锦;;从复杂XML文档中抽取目标关系片段的方法[J];郑州大学学报(理学版);2009年01期
2 扬抒;陈尚安;武刚;;一种基于自动WEB数据抽取生成黄页的方法[J];微计算机信息;2010年33期
3 卢中宁;刘放美;严宇辉;;基于XML的密集型Web信息抽取与集成研究[J];郑州轻工业学院学报(自然科学版);2008年03期
4 廖俊必,袁中凡,徐_g;图像匹配中噪声分析和预处理(英文)[J];光电工程;2002年06期
5 李德华;波形模式匹配的一种加速算法[J];信息与控制;1982年04期
6 张晓华,陈宏钧,余四清,王卓军;一种新型模糊控制器在加热炉上的应用[J];冶金自动化;1991年05期
7 唐朝京,吴自强,王跃科,张南,周代英,王成友;一种基于改进的SEVQ匹配算法的汉语全音节语音识别系统[J];国防科技大学学报;1997年03期
8 应向荣;入侵检测(IDS)技术的发展[J];信息技术与标准化;2002年12期
9 高培焕,张大智;基于二维模式匹配的图像检索快速算法[J];辽宁师范大学学报(自然科学版);2002年02期
10 马志柔;叶屹;;一种有效的多关键词词频统计方法[J];计算机工程;2006年10期
相关会议论文 前10条
1 钱颖;聂俊岚;刘国华;郜时红;;基于全集的复杂模式匹配[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
2 孙江明;李通化;;基于模式匹配的蛋白质结构形状预测[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
3 蒋理成;;增量数据抽取(ETL)技术[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
4 谢丽聪;;基于Matchmaking方法的模式匹配[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
5 谭茂金;张庚骥;石耀霖;;阵列电法测井的垂直模式匹配理论研究[A];中国地球物理学会第二十四届年会论文集[C];2008年
6 陆忠良;苏厚勤;;基于Oracle/Linux环境数据抽取技术的研究与实践[A];第四届中国软件工程大会论文集[C];2007年
7 陈建云;王跃科;刘辉;;基于相关分析和模式匹配的多普勒频率测量方法[A];第三次全国会员代表大会暨学术会议论文集[C];2002年
8 胡凤国;;一个简单人机对话系统的实现方法[A];第一届学生计算语言学研讨会论文集[C];2002年
9 朱艳;许家s,
本文编号:2057700
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2057700.html