基于标记树对象抽取技术的Hidden Web获取研究
本文关键词: Hidden Web 信息检索 对象抽取 结构化查询 标记树 出处:《计算机工程与应用》2002年23期 论文类型:期刊论文
【摘要】:目前标准的搜索引擎能够检索的仅仅是WorldWideWeb提供的小部分称为可索引的Web信息。大量的HiddenWeb信息(估计容量是可索引Web的500倍)对这些搜索引擎是不可见的。这些信息隐藏在Web页面的搜索表单后面,保存在大型的动态数据库中。该文提出了一套检索HiddenWeb信息的方法,给出了系统的框架结构,并详细讨论了实现的关键技术。系统采用新的基于标记树的对象抽取(Tag-Tree-basedObjectExtraction)方法自动地从Web页面中抽取HiddenWeb信息,然后在此基础上给出了结构化的HiddenWeb信息查询算法。文章最后对实验结果进行了讨论。
[Abstract]:The current standard search engine is able to retrieve only a small portion of the Web information provided by WorldWideWeb called indexed. A large amount of HiddenWeb information. The estimated capacity is 500 times that of an indexed Web) that is not visible to these search engines. This information is hidden behind the search form on the Web page. This paper presents a set of methods for retrieving HiddenWeb information and gives the framework of the system. The key technology of the implementation is discussed in detail. The system adopts a new object extraction based on tag tree and Tag-Tree-Based object Extraction-based (Tag-Tree-based object Extraction). Method automatically extracts HiddenWeb information from a Web page. Then a structured HiddenWeb information query algorithm is presented. Finally, the experimental results are discussed.
【作者单位】: 上海交通大学计算机系 上海交通大学计算机系 上海交通大学计算机系 上海交通大学计算机系
【基金】:国家自然科学基金重大国际合作项目资助(编号:60221120145)
【分类号】:TP391.4
【正文快照】: 1引言今天,,人们已经习惯于通过搜索引擎从网上查找信息。目前,主流的搜索引擎基本上只收集了互联网上部分称为publiclyindexableWebrぃ常磖Γǹ伤饕┑男畔ⅰU獠糠中畔⑹怯蒀rawler按照某种控制策略,沿着Web页面的超链接图下载的Web页面集合,通常也被称为静态页面集
【参考文献】
相关期刊论文 前1条
1 王继成,邹涛,杨小江,潘金贵,张福炎;基于Internet的信息资源发现技术与实现[J];计算机研究与发展;1999年11期
【共引文献】
相关期刊论文 前10条
1 李存华,纪兆辉;基于互联网络的决策支持系统模型[J];计算机工程;2000年10期
2 宋伟,王举成,马根峰,赵济林;Internet数据挖掘原理及实现[J];重庆邮电学院学报(自然科学版);2001年02期
3 肖晓旦,陈先来;互联网信息资源组织发展趋势分析[J];高校图书馆工作;2004年06期
4 文坤梅,卢正鼎,陈莉,邓曦;元搜索引擎中检索结果排序的优化方法[J];华中科技大学学报(自然科学版);2003年03期
5 孙霞,郑庆华;教育资源元数据语义扩展查找方法的研究[J];计算机研究与发展;2004年12期
6 丁永生,周斌,杨文春;HTML文档的模糊检索模型[J];计算机工程与应用;2001年03期
7 汪肇兵,朱桂林,陈震岳,石教英;个性化智能信息检索的设计与实现[J];计算机工程与应用;2001年11期
8 周国民,周伯生;基于XML的多媒体光盘出版系统的研究[J];计算机工程与应用;2001年12期
9 李淑琴,王诚,刘卫东,蔡月茹;基于Agent的网上高校招生管理系统模型[J];计算机工程与应用;2001年18期
10 张晓冬,张书杰,邢俊丽,李俊玉;关于信息过滤模型的探讨[J];计算机工程与应用;2002年05期
相关会议论文 前1条
1 李振星;徐泽平;;基于兴趣模型的WEB信息预测采集过滤方法[A];第一届学生计算语言学研讨会论文集[C];2002年
相关博士学位论文 前5条
1 李春梅;基于Internet/Intranet和Multi-Agent的企业经营战略群体决策支持系统研究[D];昆明理工大学;2001年
2 俞方桦;互联网信息资源整合研究[D];东华大学;2001年
3 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年
4 傅明;基于Web的空间数据挖掘研究[D];中南大学;2004年
5 吴翔;产品4D信息模型的基础技术研究[D];武汉理工大学;2005年
相关硕士学位论文 前10条
1 贾保先;基于Ontology的智能信息检索关键技术研究[D];中国海洋大学;2007年
2 高顺纪;基于Agent的中文多元搜索引擎的研究和开发[D];北京工业大学;2000年
3 刘向辉;专题性智能搜索引擎的研究与实现[D];昆明理工大学;2001年
4 苗世敏;EC站点分析技术研究[D];河北工业大学;2002年
5 李健;网络结构单元中学术信息分布的计量研究[D];西南师范大学;2002年
6 冶红;基于数据挖掘的Web挖掘系统的研究[D];大连理工大学;2003年
7 杨艳丽;元数据与网络信息资源的管理[D];太原理工大学;2003年
8 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年
9 白丽君;基于内容和协作的科技文献过滤方法研究[D];山西大学;2003年
10 吴宗树;基于agent的internet信息自动提取的研究[D];沈阳工业大学;2003年
【二级参考文献】
相关期刊论文 前1条
1 杨晓江,张福炎;基于Z39.50的联机书目检索服务[J];软件学报;1999年08期
【相似文献】
相关期刊论文 前10条
1 宋晖,张岭,叶允明,马范援;基于标记树对象抽取技术的Hidden Web获取研究[J];计算机工程与应用;2002年23期
2 兰东俊,朱精南;网页视图的重构与转化[J];计算机应用;2003年S2期
3 张树瑜,朱仲英;基于MT决策树的Web信息抽取研究[J];计算机工程与应用;2004年13期
4 朱精南,赵明生;网页版面信息分析[J];计算机工程;2004年12期
5 张树瑜,杜国宁,朱仲英;基于Web的半结构化信息抽取技术研究[J];系统工程与电子技术;2004年05期
6 常育红,姜哲,朱小燕;基于标记树表示方法的页面结构分析[J];计算机工程与应用;2004年16期
7 庄怀宇,吴成柯,邓家先,李云松,刘凯;JPEG2000 T_2编码快速算法及硬件实现[J];系统工程与电子技术;2004年12期
8 董东;郭瑞强;李红;;XML函数依赖研究[J];计算机应用与软件;2006年10期
9 陈华竣;郑智;倪德明;;真前缀标记树——一种面向用户的子树选取策略表示方法[J];计算机技术与发展;2006年12期
10 陈华竣;;真前缀标记树在子树选取策略中的应用[J];广东技术师范学院学报;2006年06期
相关硕士学位论文 前5条
1 张程;基于智能Agent的搜索引擎研究[D];重庆大学;2002年
2 张磊;淋巴结树突状细胞对肾癌预后的影响[D];中国人民解放军军医进修学院;2004年
3 郭林;面向XML文档的数据挖掘技术研究[D];大连理工大学;2005年
4 王春龙;基于网站语义结构的信息抽取系统的研究与实现[D];北京交通大学;2007年
5 赵嫣;信息检索中结构化文档相关度计算方法的研究[D];山东大学;2007年
本文编号:1491020
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1491020.html