关于中国Deep Web的规模、分布和结构
本文关键词: DeepWeb Web数据库 查询接口 出处:《小型微型计算机系统》2007年10期 论文类型:期刊论文
【摘要】:随着Web数据库的广泛应用,Web正在加速的"深化",大量的高质量的信息隐藏在Deep Web中.基于IP采样的方法,对1,000,000个IP样本进行了分析统计,揭示了2006年初中国Deep Web的规模、分布和结构.主要结论包括有:1中国Deep Web查询接口往往位于站点浅层,94.6%的Deep Web查询接口出现在站点的前3层;2中国Deep Web大约有24,000个站点,28,000个Web数据库和74,000个查询接口;3中国Deep Web大部分是非结构化的,其中64%是非结构化的Web数据库;4中国Deep Web分布于多种不同的主题领域;5目前主要的中文搜索引擎已覆盖国内Deep Web大约二分之一的页面.
[Abstract]:With the wide application of Web database, a lot of high quality information is hiding in Deep Web. Based on IP sampling method, 1,000. An analysis of #number0# IP samples reveals the size of China's Deep Web in early 2006. Distribution and structure. The main conclusions include: 1 Chinese Deep Web query interface is often located in the shallow layer of the site, 94.6% of the Deep Web query interface appears in the first three layers of the site; 2China Deep Web has about 24,000 sites with 28,000 Web databases and 74,000 query interfaces; 3Chinese Deep Web is mostly unstructured, of which 64% are unstructured Web databases; 4Chinese Deep Web is distributed in many different subject areas; At present, the main Chinese search engine has covered about 1/2 pages of Deep Web in China.
【作者单位】: 苏州大学智能信息处理及应用研究所 苏州大学智能信息处理及应用研究所 苏州大学智能信息处理及应用研究所 苏州大学智能信息处理及应用研究所
【基金】:2005年度教育部科研重点项目(205059)资助 教育部“高校博士学科点科研基金项目”(20040285016)资助 江苏省高技术研究计划项目(BG2005019)资助.
【分类号】:TP393.092
【正文快照】: 1引言随着Web数据库的广泛应用,Web正在加速的“深化”[1].Internet上有大量页面是由后台数据库动态产生,这部分信息不能直接通过静态链接获取,只能通过填写表单提交查询来获取,由于传统的网络爬虫(Crawler)不具有填写表单的能力,爬不出这些页面.因此,现有的搜索引擎搜索不出
【共引文献】
相关期刊论文 前8条
1 孟涛,闫宏飞,李晓明;一种评价搜索引擎信息覆盖率的模型及其验证[J];电子学报;2003年08期
2 王继民;国内综合性搜索引擎时新性的计算[J];计算机工程与应用;2003年21期
3 丁国栋,王斌,白硕;Web超链挖掘:中国境内Web图结构研究[J];计算机工程;2005年14期
4 程冲,黄水清;利用正则表达式解析新闻网页的算法研究[J];农业图书情报学刊;2005年04期
5 冯是聪,王继民;关于“中文网页自动分类竞赛”结果的分析[J];中文信息学报;2003年05期
6 胡骏;李星;;校园网信息资源搜索引擎的研究与实现[J];计算机工程与设计;2006年24期
7 葛蓉;网络自组织性的研究与应用[J];图书情报工作;2005年05期
8 杨海东;叶小岭;张颖超;;基于Hash算法实现搜索引擎中重复WEB页面的消除[J];微计算机信息;2006年27期
相关博士学位论文 前1条
1 刘文捷;网格环境下主动式安全系统的通信机制研究[D];哈尔滨工程大学;2006年
相关硕士学位论文 前1条
1 王默;基于个性化的石油专业网络信息检索技术研究[D];西南石油大学;2006年
【相似文献】
相关期刊论文 前10条
1 张大吉;;面向电子商务的Deep Web数据集成研究[J];宁波大学学报(理工版);2008年02期
2 都艺兵;林培光;;基于Deep Web的图书搜索引擎系统设计[J];计算机与数字工程;2009年09期
3 安清波;ASP编程中的WEB数据库操作[J];软件工程师;2000年11期
4 陈士川,蒋蕾,曹雪花;远程辅助教学系统的设计与实现[J];信息技术;2004年08期
5 郑秀琴;Web数据库安全机制解析与应用[J];电脑知识与技术;2005年12期
6 温智斌;RDS技术初探[J];电子与电脑;1999年10期
7 吴国凤,韩巍;一种基于XML的Web数据库访问方法[J];合肥工业大学学报(自然科学版);2004年05期
8 杨成,王恒山,张乾宇;Web数据库在线维护方法研究[J];计算机应用与软件;2004年09期
9 倪朔东;;ASP访问WEB数据库在动态网站中的应用[J];电脑与电信;2007年05期
10 冯壮;刘姝;;基于WEB技术的网络教学平台[J];科技信息(科学教研);2007年19期
相关会议论文 前7条
1 胡新保;唐立旭;王羽;;静态化Web数据库动态页面[A];全国计算机网络应用年会论文集(2001)[C];2001年
2 刘晓云;杜习英;;Web客户机/服务器方式的数据库应用[A];全国第十四届计算机科学及其在仪器仪表中的应用学术交流会论文集[C];2001年
3 蔡彪;廖闻剑;彭艳兵;;Deep Web数据集成和关键技术综述[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
4 鲜学丰;方巍;赵朋朋;崔志明;胡鹏昱;;一种Deep Web数据源质量评估模型[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
5 虞秀本;;基于PHP技术的烟草网络办公自动化系统[A];第三届广西青年学术年会论文集(自然科学篇)[C];2004年
6 严伸境;王豪浩;林华;聂雄;;基于ASP技术的汽车信息网站的设计[A];广西计算机学会——2004年学术年会论文集[C];2004年
7 黄锦辉;任永杰;孟小锋;;Chiql在因特网上的应用[A];第十五届全国数据库学术会议论文集[C];1998年
相关重要报纸文章 前6条
1 上海市桂林路418号华腾公司EC部 吴德柱;Web数据库记录[N];计算机世界;2000年
2 江苏 王汉洲;沟通无极限[N];中国电脑教育报;2002年
3 中国科学技术大学信息管理与决策科学系 张斯成;用ASP构建音乐服务器[N];计算机世界;2000年
4 慰鹏飞;走进编程之网络篇(二)[N];江苏经济报;2001年
5 丁一;“活的老鼠”不好抓[N];计算机世界;2001年
6 ;HP测试个人移动导航工具[N];计算机世界;2003年
相关博士学位论文 前1条
1 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年
相关硕士学位论文 前10条
1 蔡丽丽;基于Web的网上测试系统[D];电子科技大学;2004年
2 葛平升;Web数据库技术应用研究与实现[D];西北工业大学;2002年
3 陈丹;基于WEB数据库的相关技术研究与实践[D];哈尔滨理工大学;2001年
4 蔡池兰;基于Web数据库的工程试验数据信息获取系统的开发[D];武汉理工大学;2004年
5 李琳;网络化学生成绩查询系统的开发及应用[D];武汉理工大学;2003年
6 闫忠华;基于Web技术的高校设备物资管理系统[D];大连理工大学;2002年
7 柳巧玲;国贸Intranet商务信息管理系统的设计与实现[D];南京工业大学;2002年
8 赵保平;基于WEB的数据库访问技术[D];中国原子能科学研究院;2000年
9 董宁威;基于XML的WEB数据库信息发布系统的研究与设计[D];苏州大学;2001年
10 薛晓英;基于Web的税务稽查系统研究与设计[D];南京理工大学;2003年
,本文编号:1446909
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1446909.html