当前位置:主页 > 管理论文 > 移动网络论文 >

面向中文网页的信息抽取关键技术研究与实现

发布时间:2021-02-18 22:35
  随着互联网技术的发展,网络中web页面的数量规模越来越庞大,在这些海量的web页面中,包含着许多用户需要的信息。通常情况下,能够为用户所直接使用的信息都是以结构化的形式组织,而web页面中用户需要的信息通常都包含在大量的页面无结构化或半结构化文本中,因此用户难以直接利用web页面的信息。为了更好的利用web页面中包含的信息,就需要从web页面中抽取出用户所需要的信息,并将其以结构化的形式存储。网页信息抽取旨在从网页中抽取出结构化信息,网页中不仅仅包含由自然语言构成的自由文本(无结构化文本),同时也包含如表格、列表等半结构化文本。本文主要针对从中文网页中抽取信息进行研究,采用一种结合网页段落筛选和数据集成的技术同时从网页自由文本和半结构化文本中抽取信息的综合方法进行中文网页信息抽取。该方法采用启发式规则从网页中筛选出自由文本和半结构化文本,之后针对自由文本采用分词、词性标注、基于规则的命名实体识别技术等自然语言处理技术和语义抽取规则进行信息抽取,同时采用包装器归纳的方法归纳出单槽规则用于半结构化文本信息抽取,最终将从两种文本中抽取出的信息转换为规范化数据以解决数据冲突从而实现数据集成。本... 

【文章来源】:浙江大学浙江省 211工程院校 985工程院校 教育部直属院校

【文章页数】:79 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 课题背景
    1.2 本文研究内容
    1.3 本文的组织
第2章 相关技术的研究综述
    2.1 信息抽取介绍
    2.2 自由文本信息抽取技术
    2.3 命名实体识别技术
    2.4 web半结构化信息抽取技术
    2.5 数据集成
    2.6 本章小结
第3章 基于自然语言处理的自由文本信息抽取
    3.1 自由文本信息抽取实现概述
    3.2 中文分词与词性标注
    3.3 命名实体识别
    3.4 语义规则的组成
    3.5 自由文本抽取规则归纳
    3.6 本章小结
第4章 基于包装器归纳的半结构化文本信息抽取
    4.1 包装器归纳方法概述
    4.2 训练集标注
    4.3 抽取规则设计
    4.4 包装器归纳算法
    4.5 本章小结
第5章 企业注册信息抽取系统设计与实现
    5.1 企业注册信息抽取系统框架
    5.2 网页URL收集
    5.3 网页段落筛选
    5.4 数据语义集成
    5.5 系统实现
    5.6 实验结果与分析
        5.6.1 自由文本信息抽取结果与分析
        5.6.2 半结构化文本信息抽取结果与分析
        5.6.3 综合方法信息抽取结果与分析
    5.7 本章小结
第6章 总结与展望
    6.1 总结
    6.2 展望
参考文献
攻读硕士学位期间主要的研究成果
致谢



本文编号:3040192

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3040192.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户416cc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com