当前位置：主页 > 科技论文 > 搜索引擎论文 >

基于搜索引擎的Deep Web数据源发现技术

发布时间：2016-07-23 01:04

本文关键词：基于搜索引擎的Deep Web数据源发现技术，由笔耕文化传播整理发布。

维普资讯

6 0

计算机技术与发展

第 1 8卷

3 3查询扩展 .

后对那些被标记页面的主题进行分析。通过中文分词

对于每个 D e b域来说， epWe领有些词语经常出现，结合这些词语构建新的查询将会得到更准确的结果。因此，查询扩展的关键在于搜集这些词语。通过分析搜索引擎的查询日志，将查询字符串按照相似度

软件，，一个主题被分割成独立

的语义单元。例如，每主题为”说天下一一玄幻 f侠 f小武网络小说在线阅读”经过分词处理后，,输出为：小说，天下，玄幻，武侠，网络，在线，阅读。其中“小说”出现两次。为了统计出所有主题中每个词出现的次数，设计了一个简单的词频计数器。值得注意的是，当一个词语在同一主题中重复出现的话，计数器一律视为只出现一次。在处理完所有相关主题后，随之得到每个词的词频。表 2表、 3表 4分别为“、小说”“、服装”“、法律”这三个领域词频统计的结果。该结果是查询扩展的依据。表 2小说

进行聚类，以实现查询扩展[可 1。但该方法必须建立 0 J在已获得查询日志的基础上，而我们并不具备该条件。实验中，对搜索引擎返回页面中链接的主题进行分析，

运用分词技术将主题分割成独立的语义单元，过词通频统计归纳出最常用的词语，而实现查询扩展。从

4实

验

4 1实验步骤 .

将构建好的初始查询提交给传统搜索引擎。实验中，以百度 ( t:Ⅵ bi .o/作为搜索平台。 ht/ v w. a u cr ) p d n

在百度返回的结果页面中，取前 1 0链接记录进选 0条行分析。 4. .主题抽取和页面爬取 11

利用爬虫在百度返回的结果页面上抓取有用信

息。由于记录的摘要是页面正文的某一部分，内容往往杂乱无章，而记录的主题则是页面所属站点的总体概括，定位比摘要更准确，因此选择每一条记录的主题进行抽取。当然，每一主题所对应的 U L链接也是必 R不可少的信息。根据该 UR去爬取具体的 H ML L, T

4 2实验结果 .

根据 D e b ep We各个领域词频的大小，选取其中出现次数最多的词语进行查询扩展。对于搜索引擎来说，提交的关键词越多，查询结果却反而不能令人满意。因此，须要在关键词的提交数量上加以限制。必鉴于“这个词通用性过高，网”在查询扩展中起不到很大作用，因此，将词频数排名前两位的词语和初始查询

页面。最后，主题和相对应的 H ML页面保存在本将 T 地的数据库中。 4. . H r L页面分类 12 M

组合在一起构成新的查询。为了验证该方法的有效性，对查询扩展前后的结果进

行比较。图 3为结果对比图，中纵轴表示含 D e b其 epWe查询表单的页面数。

有了 H ML页面， T下一步工作就是找出那些含有 D e b询接口的页面。为此， HT ep We查对 ML页面进行两次筛选：第一轮筛选的目标是剔除所有不含接口

的页面，含有 F r标签的 HT将 om ML页面保留下来。接着，二轮便是从剩下的 H ML页面中筛选出含有第 T De epWe查询接口的页面， b先从页面中抽取出接口表单，随后通过“利用朴素贝叶斯分类算法自动判定网页表单”的方法将这些表单自动分类。表 1是页面分类

结果。经过贝叶斯分类器筛选后，那些含有 D e对 ep We查询表单的页面进行标记。 b 表 1页面分类结果

图 3查询扩展前后结果比较

“小说”“装”“、服、法律”这三个领域在查询扩展

后， D e b询接口的页面数分别为 7、6 3。含 e We查 p 5 6、9 由图 3以看出，可查询扩展后能够得到更多含有 D e ep We查询接口的页面。 b

5结束语 4.,主题词频统计 13

D e b ep We数据源发现问题一直以来都是 D e ep (转第 6下 4页 )

由于主题和相对应的页面已保存在数据库中，随

基于搜索引擎的Deep Web数据源发现技术

本文关键词：基于搜索引擎的Deep Web数据源发现技术，由笔耕文化传播整理发布。

本文编号：75372

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/75372.html

上一篇：搜索引擎关键字广告点击率与保留价研究
下一篇：一种基于聚类和用户行为分析的搜索引擎结果优化方法

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|