当前位置:主页 > 管理论文 > 移动网络论文 >

基于HTML特征与层次聚类的Web查询接口发现

发布时间:2017-07-06 08:06

  本文关键词:基于HTML特征与层次聚类的Web查询接口发现


  更多相关文章: Web查询接口 超级文本标记语言 层次聚类 结构距离 交互密度 文本过滤器


【摘要】:针对各网站Web查询接口(WQI)因结构异构而难以被自动发现的问题,提出一种基于超级文本标记语言(HTML)特征和层次聚类的Web查询接口发现方法。利用HTML控件元素之间的层级结构、依附关系和HTML交互控件的终端特性,通过前序和后序遍历相结合的方式解析页面,建立合适的页面树状模型。按照查询区域交互密度的局部集中性定位并初始化聚类集合。将聚类集合中各潜在接口区域结构距离的相似性进行层次聚类,并对所得潜在接口中的交互控件选择合适的文本节点进行语义标注,得出完整WQI区域,利用接口中的文本特征过滤非查询接口。实验结果表明,该方法克服了传统方法对form标签的过度依赖,具有较强的通用性,接口识别率与准确率分别达到90.7%和92%。
【作者单位】: 上海大学计算机工程与科学学院;
【关键词】Web查询接口 超级文本标记语言 层次聚类 结构距离 交互密度 文本过滤器
【分类号】:TP393.09;TP391.1
【正文快照】: 1概述Web查询接口(Web Query Interface,WQI)存在于半结构化的超级文本标记语言(Hyper TextMarkup Language,HTML)页面中,其查询结果具有数 量庞大、专业性强、价值高等特点,是Deep Web搜索引擎极为重要的数据来源[1]。但由于不同站点的异构形态,给查询接口的自动发现带来困

【相似文献】

中国期刊全文数据库 前10条

1 潘大庆;;基于层次聚类的微博敏感话题检测算法研究[J];广西民族大学学报(自然科学版);2012年04期

2 郑晓鸣;吕士颖;王晓东;;一种基于随机抽取的有限深度层次聚类[J];郑州大学学报(理学版);2007年03期

3 汤周文;叶东毅;;基于层次聚类的差异化属性约简算法[J];计算机应用;2009年02期

4 文顺;赵杰煜;朱绍军;;基于贝叶斯和谐度的层次聚类[J];模式识别与人工智能;2013年12期

5 龚尚福;陈婉璐;贾澎涛;;层次聚类社区发现算法的研究[J];计算机应用研究;2013年11期

6 香红丽;王潇涵;罗淑云;;基于层次聚类方法研究课程关系结构[J];中国科教创新导刊;2011年26期

7 李晓飞;;基于动态层次聚类的离散化算法的研究[J];计算机应用与软件;2009年10期

8 张阔,徐鹏,李涓子,王克宏;基于优化层次聚类的文档逻辑结构抽取[J];清华大学学报(自然科学版);2005年04期

9 王旅;彭宏;胡劲松;梁华芳;;层次聚类在种群亲缘关系研究中的应用[J];计算机时代;2006年07期

10 黄健斌;康剑梅;齐俊杰;孙鹤立;;一种基于同步动力学模型的层次聚类方法[J];中国科学:信息科学;2013年05期

中国重要会议论文全文数据库 前6条

1 吾守尔·斯拉木;吴启南;;基于层次聚类方法[A];第六届全国计算机应用联合学术会议论文集[C];2002年

2 彭楠峗;王厚峰;凌晨添;;基于层次聚类的网络新闻热点发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

3 杨建武;;Web检索结果的层次聚类研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

4 刘启亮;邓敏;李光强;王佳t,

本文编号:525342


资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/525342.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户51944***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com