基于搜索引擎的Deep Web数据源发现技术
本文关键词:基于搜索引擎的Deep Web数据源发现技术,由笔耕文化传播整理发布。
维普资讯
6 0
计算机技术与发展
第 1 8卷
3 3查询扩展 .
后对那些被标记页面的主题进行分析。通过中文分词
对于每个 D e b域来说, epWe领有些词语经常出 现,结合这些词语构建新的查询将会得到更准确的结果。因此,查询扩展的关键在于搜集这些词语。通过 分析搜索引擎的查询日志,将查询字符串按照相似度
软件,,一个主题被分割成独立
的语义单元。例如,每主题为”说天下一一玄幻 f侠 f小武网络小说在线阅读”经过分词处理后,,输出为:小说,天下,玄幻,武侠, 网络,在线,阅读。其中“小说”出现两次。为了统计出 所有主题中每个词出现的次数,设计了一个简单的词 频计数器。值得注意的是,当一个词语在同一主题中 重复出现的话,计数器一律视为只出现一次。在处理完所有相关主题后,随之得到每个词的词频。表 2表、 3表 4分别为“、小说”“、服装”“、法律”这三个领域词频统计的结果。该结果是查询扩展的依据。 表 2小说
进行聚类,以实现查询扩展[可 1。但该方法必须建立 0 J在已获得查询日志的基础上,而我们并不具备该条件。 实验中,对搜索引擎返回页面中链接的主题进行分析,
运用分词技术将主题分割成独立的语义单元,过词通 频统计归纳出最常用的词语,而实现查询扩展。从
4实
验
4 1实验步骤 .
将构建好的初始查询提交给传统搜索引擎。实验 中,以百度 ( t:Ⅵ bi .o/作为搜索平台。 ht/ v w. a u cr ) p d n
在百度返回的结果页面中,取前 1 0链接记录进选 0条 行分析。 4. .主题抽取和页面爬取 11
利用爬虫在百度返回的结果页面上抓取有用信
息。由于记录的摘要是页面正文的某一部分,内容往往杂乱无章,而记录的主题则是页面所属站点的总体概括,定位比摘要更准确,因此选择每一条记录的主题 进行抽取。当然,每一主题所对应的 U L链接也是必 R不可少的信息。根据该 UR去爬取具体的 H ML L, T
4 2实验结果 .
根据 D e b ep We各个领域词频的大小,选取其中出 现次数最多的词语进行查询扩展。对于搜索引擎来说,提交的关键词越多,查询结果却反而不能令人满 意。因此,须要在关键词的提交数量上加以限制。必 鉴于“这个词通用性过高,网”在查询扩展中起不到很大作用,因此,将词频数排名前两位的词语和初始查询
页面。最后,主题和相对应的 H ML页面保存在本将 T 地的数据库中。 4. . H r L页面分类 12 M
组合在一起构成新的查询。为了验证该方法的有效性,对查询扩展前后的结果进
行比较。图 3为结果对 比图,中纵轴表示含 D e b其 epWe查询表单的页面数。
有了 H ML页面, T下一步工作就是找出那些含有 D e b询接口的页面。为此, HT ep We查对 ML页面进行两次筛选:第一轮筛选的目标是剔除所有不含接口
的页面,含有 F r标签的 HT将 om ML页面保留下来。 接着,二轮便是从剩下的 H ML页面中筛选出含有第 T De epWe查询接口的页面, b先从页面中抽取出接口表单,随后通过“利用朴素贝叶斯分类算法自动判定网页表单”的方法将这些表单自动分类。表 1是页面分类
结果。经过贝叶斯分类器筛选后,那些含有 D e对 ep We查询表单的页面进行标记。 b 表 1页面分类结果
图 3查询扩展前后结果比较
“小说”“装”“、服、法律”这三个领域在查询扩展
后, D e b询接口的页面数分别为 7、6 3。含 e We查 p 5 6、9 由图 3以看出,可查询扩展后能够得到更多含有 D e ep We查询接口的页面。 b
5结束语 4.,主题词频统计 13
D e b ep We数据源发现问题一直以来都是 D e ep (转第 6下 4页 )
由于主题和相对应的页面已保存在数据库中,随
本文关键词:基于搜索引擎的Deep Web数据源发现技术,由笔耕文化传播整理发布。
本文编号:75372
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/75372.html