基于网页结构特征的垂直搜索引擎研究与实现.pdf 全文
本文关键词:基于网页结构特征的垂直搜索引擎研究与实现,由笔耕文化传播整理发布。
上海交通大学
硕士学位论文
基于网页结构特征的垂直搜索引擎研究与实现
姓名:任军
申请学位级别:硕士
专业:软件工程
指导教师:王东;杨懋
20081201
上海交通大学工程硕士学位论文
摘要
基于网页结构特征的垂直搜索引擎研究与实现
摘 要
随着 Internet 的飞速发展,人们越来越依靠网络来查找他们所需要的信息。
Internet 的信息资源具有多样性、分布性、开放性、时效性和异构性的特点,同一
主题的信息通常分散存放在不同网站上,表现的形式也各不相同。垂直搜索引擎可以
将这些信息按主题进行抽取,以结构化形式存储。
本文提出了一种基于网页结构特征的垂直搜索引擎模型。根据专业和行业网站的
领域特点,提出相应主题的元数据统一表示标准。通过对对应网站的网页分析,依据
元数据表示标准和网页结构特征,提炼出具体网站网页的信息抽取模板。垂直搜索引
擎根据该信息抽取模板对目标网站进行网页爬行、页面转换、抽取数据和分离数据及
保存数据。网站的信息抽取模板采用XML 进行描述,对应网页结构特征。由于采用标
准的XML 并以文件形式存放,可以方便地在关心该网站信息的用户之间共享。
根据本文提出的基于网页结构特征的垂直搜索引擎模型,我们开发了一个基于网
页结构特征的垂直搜索引擎系统。整个系统以元数据模型为基础,对网站网页结构进
行结构化处理,获得网页的结构化信息。
本文关键词:基于网页结构特征的垂直搜索引擎研究与实现,由笔耕文化传播整理发布。
,本文编号:84929
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/84929.html