当前位置:主页 > 科技论文 > 搜索引擎论文 >

垂直搜索引擎中的网页对象抽取模型及实现技术研究硕士论文.pdf

发布时间:2016-08-10 20:15

  本文关键词:垂直搜索引擎中的网页对象抽取模型及实现技术研究,,由笔耕文化传播整理发布。


文档介绍:
湖南大学硕士学位论文垂直搜索引擎中的网页对象抽取模型及实现技术研究姓名:王实申请学位级别:硕士专业:软件工程指导教师:林亚平20090401摘要随着因特网技术的快速发展,网上信息呈几何级数增长,由于网络信息载体的异构性和多变性,如何检索和处理这些海量信息成为目前重要的研究课题。Web信息抽取是指从半结构化的网页中抽取指定的信息,将其形成结构化的数据填入数据库中供用户查询使用的过程。Web信息抽取是提高信息检索尤其是垂直领域信息检索性能的重要手段之一,本文研究垂直搜索引擎中的Web信息抽取技术。本文首先总结了Web信息抽取的主要技术,从Web信息抽取系统的构成入手,分析了模板检测、模板生成和数据抽取三个主要过程涉及到的关键问题及传统解决方式。针对垂直搜索引擎应用背景下传统信息抽取技术的局限性,提出了相应的改进方法。对于模板检测,本文在传统的DOM树编辑距离算法的基础上,根据节点的对布局的影响程度赋予其不同的权值,提出一种新的网页结构相似性计算算法,实验结果分析表明,采用新的算法对动态模板网页进行聚类的效果比传统算法有明显改进。对于模板生成和数据抽取,本文提出了基于聚类的模板混合生成算法,该算法结合网页聚类过程中样本网页之间结构相似性... 内容来自转载请标明出处.


  本文关键词:垂直搜索引擎中的网页对象抽取模型及实现技术研究,由笔耕文化传播整理发布。



本文编号:90948

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/90948.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户364ec***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com