当前位置:主页 > 管理论文 > 移动网络论文 >

面向领域的Web信息自动化抽取系统设计与实现

发布时间:2021-06-20 18:54
  随着互联网技术的迅速发展,社会各行各业都在通过网络与外界交互信息,Web信息呈显海量和多元化,并且仍在急剧增长。在越来越多的实际应用需要从Web中抽取有价值的信息加以利用。不同网站网页异构化和网页自身半结构化特征使得Web信息难以分析和直接利用,另一方面,人们除了关注大众新闻外,更多的是对一些与自己相关的特定领域信息感兴趣。面向领域的Web信息抽取技术在实际应用中变得越来越重要。论文分析了当前的Web信息抽取国内外研究现状及发展趋势,研究领域网站的特点并提出系统设计目标。本系统的特色是基于特定领域网站抽取用户关注信息,能够自动生成领域内不同网站的抽取规则,系统具有良好的抽取性能,并且容易扩展,可移植抽取不同领域网站。系统设计宗旨是努力提高系统的易用性,寻求在用户参与负担和系统抽取性能之间取得平衡。系统设计主要包括了数据采集模块、网页清洗模块、抽取规则生成模块、Web信息管理模块等。其中抽取规则生成模块为系统核心模块,采用全自动化包装器生成算法MDR算法和DSE算法分别用来抽取两类数据密集型网页:列表页和详情页。为了提高抽取结果的准确率,系统基于DOM树模型设计了两种方法过滤噪音:一种方... 

【文章来源】:郑州大学河南省 211工程院校

【文章页数】:78 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
目录
1 绪论
    1.1 研究背景和研究意义
    1.2 信息抽取的历史和现状
    1.3 Web信息抽取技术国内外研究现状
    1.4 论文的工作
    1.5 论文的结构
2 相关技术概述
    2.1 基于网页重复模式抽取方法原理
    2.2 基于DOM的Web抽取技术的比较
        2.2.1 DSE算法
        2.2.2 RoadRunner算法
        2.2.3 MDR算法
    2.3 文本分类的分析与研究
        2.3.1 文本分类
        2.3.2 文本的表示方法
        2.3.3 特征的选择
        2.3.4 中文文本分类方法
    2.4 本章小结
3 系统设计目标与总体设计
    3.1 系统设计目标
    3.2 系统总体框架
    3.3 系统功能总体设计
    3.4 本章小结
4 网页采集与预处理模块设计
    4.1 网页采集模块的设计
        4.1.1 爬虫的工作原理
        4.1.2 爬虫程序设计
        4.1.3 相对地址转换
        4.1.4 使用HttpClient访问网络
    4.2 数据预处理模块的分析与设计
        4.2.1 网页中的噪音
        4.2.2 HTML错误检查与修正
        4.2.3 使用正则式确定网页编码方式
    4.3 中文分词模块设计
    4.4 本章小结
5 领域Web数据抽取分析与设计
    5.1 领域网页的特征分析
    5.2 两类网页的抽取算法选择
        5.2.1 面临的问题
        5.2.2 抽取算法选择
        5.2.3 使用DOM技术处理XML文档
    5.3 列表页数据抽取
        5.3.1 树的相似度算法
        5.3.2 使用MDR算法抽取列表页数据
    5.4 噪音特征分析
        5.4.1 列表页数据区域特征
        5.4.2 详情页文本特征
    5.5 噪音过滤
        5.5.1 噪音过滤设计方案
        5.5.2 文本分类训练模块设计
        5.5.3 使用kNN分类算法过滤噪音
    5.6 详情页数据抽取
        5.6.1 DOM树的对齐
        5.6.2 详情页噪音特征分析与过滤
    5.7 抽取模板生成
        5.7.1 语义标注
        5.7.2 基于XPath技术的抽取规则表示
    5.8 本章小结
6 系统的实现与评测
    6.1 系统开发环境
    6.2 系统架构与关键类实现
    6.3 系统数据库实现
    6.4 用户界面实现
    6.5 系统的性能评测
    6.6 本章小结
7 总结与展望
参考文献
致谢
个人简历与研究成果


【参考文献】:
期刊论文
[1]网页去噪:研究综述[J]. 毛先领,何靖,闫宏飞.  计算机研究与发展. 2010(12)
[2]Web信息抽取技术综述[J]. 陈钊,张冬梅.  计算机应用研究. 2010(12)
[3]支持向量机与K近邻结合的网页分类方法[J]. 宗永升,张祎.  计算机仿真. 2010(09)
[4]基于Web的信息抽取技术研究综述[J]. 蒲筱哥.  现代情报. 2007(10)
[5]Deep Web数据集成研究综述[J]. 刘伟,孟小峰,孟卫一.  计算机学报. 2007(09)
[6]中文文本分类中特征抽取方法的比较研究[J]. 代六玲,黄河燕,陈肇雄.  中文信息学报. 2004(01)
[7]基于DOM的Web信息提取[J]. 李效东,顾毓清.  计算机学报. 2002(05)
[8]基于支持向量机与无监督聚类相结合的中文网页分类器[J]. 李晓黎,刘继敏,史忠植.  计算机学报. 2001(01)

硕士论文
[1]中文文本分类中分词和特征选择方法研究[D]. 李原.吉林大学 2011
[2]中文文本分类中特征选择方法的研究与实现[D]. 裴英博.西北大学 2010



本文编号:3239742

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3239742.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6c9ed***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com