当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于网页结构特征的垂直搜索引擎研究与实现.pdf 全文

发布时间:2016-08-04 18:26

  本文关键词:基于网页结构特征的垂直搜索引擎研究与实现,由笔耕文化传播整理发布。


上海交通大学 硕士学位论文 基于网页结构特征的垂直搜索引擎研究与实现 姓名:任军 申请学位级别:硕士 专业:软件工程 指导教师:王东;杨懋 20081201 上海交通大学工程硕士学位论文 摘要 基于网页结构特征的垂直搜索引擎研究与实现 摘 要 随着 Internet 的飞速发展,人们越来越依靠网络来查找他们所需要的信息。 Internet 的信息资源具有多样性、分布性、开放性、时效性和异构性的特点,同一 主题的信息通常分散存放在不同网站上,表现的形式也各不相同。垂直搜索引擎可以 将这些信息按主题进行抽取,以结构化形式存储。 本文提出了一种基于网页结构特征的垂直搜索引擎模型。根据专业和行业网站的 领域特点,提出相应主题的元数据统一表示标准。通过对对应网站的网页分析,依据 元数据表示标准和网页结构特征,提炼出具体网站网页的信息抽取模板。垂直搜索引 擎根据该信息抽取模板对目标网站进行网页爬行、页面转换、抽取数据和分离数据及 保存数据。网站的信息抽取模板采用XML 进行描述,对应网页结构特征。由于采用标 准的XML 并以文件形式存放,可以方便地在关心该网站信息的用户之间共享。 根据本文提出的基于网页结构特征的垂直搜索引擎模型,我们开发了一个基于网 页结构特征的垂直搜索引擎系统。整个系统以元数据模型为基础,对网站网页结构进 行结构化处理,获得网页的结构化信息。


  本文关键词:基于网页结构特征的垂直搜索引擎研究与实现,由笔耕文化传播整理发布。



本文编号:84929

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/84929.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户97153***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com