当前位置:主页 > 社科论文 > 图书档案论文 >

基于WEB元数据抽取的ETL资源整合模型研究与实现

发布时间:2021-10-16 11:38
  数字资源整合是目前图书馆界数字化建设的一个重要方面。随着数字资源的不断增长,图书馆对资源管理的难度和工作量也在加大,用户在浩如烟海的数字资源面前也感觉到使用的不便。用户希望能够通过统一的检索界面,方便快捷地利用到图书馆所有分布式资源,包括电子图书、电子期刊等学术资源,以及文摘题录、专利成果和其他网上教学资源、会议录等形式各异的数字资源,希望图书馆提供一站式的信息服务。这就是资源整合要解决的问题。本文在依托湖南师范大学“数字图书馆”建设项目的基础之上,对ETL数据抽取模型进行深入研究后,给出了基于WEB元数据抽取的数字资源整合系统的实现模型。论文主要围绕数字图书馆元数据整合解决方案,首先简单回顾了国内外资源整合的现状;接着对资源整合的内容、模式等进行了理论分析,重点探讨了基于元数据仓库的资源整合模式;然后借助于ETL抽取模型,详细介绍了WEB元数据抽取的相关技术,包括HTML、XHTML、XML、DOM、JAXP等;接着分析了WEB信息抽取的流程,分为样本页面提取与规则库的生成、HTML页面清洗、噪音处理、DOM树解析、XML到数据库的转换存储等过程;最后结合这些相关技术和JDK、Ecl... 

【文章来源】:湖南师范大学湖南省 211工程院校

【文章页数】:81 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第一章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 主要研究内容
    1.4 论文的组织结构
第二章 数字资源整合概述
    2.1 数字资源整合的概念
    2.2 数字资源整合的内容
        2.2.1 按资源来源划分
        2.2.2 按文献类型划分
    2.3 数字资源整合的必要性分析
    2.4 数字资源整合的作用
    2.5 数字资源整合的原则
    2.6 数字资源整合的模式
        2.6.1 基于导航系统的资源整合
        2.6.2 基于OPAC系统的资源整合
        2.6.3 基于跨库检索的资源整合
        2.6.4 基于中间件的资源整合
        2.6.5 基于元数据仓库的资源整合
第三章 基于元数据仓库的资源整合模型研究
    3.1 基于元数据仓库的资源整合解决方案
    3.2 ETL整合模型
        3.2.1 ETL概念
        3.2.2 ETL数据抽取机制
        3.2.3 ETL体系结构
        3.2.4 ETL工具
    3.3 数据库设计
        3.3.1 数据库需求分析
        3.3.2 数据库结构设计
        3.3.3 数据采集模式分析
第四章 WEB元数据抽取模式实现
    4.1 Web信息抽取概述
        4.1.1 Web信息抽取的相关概念
        4.1.2 Web信息抽取方式的分类
    4.2 WEB信息抽取的相关技术
        4.2.1 HTML
        4.2.2 XML
        4.2.3 XHTML
        4.2.4 DOM
    4.3 WEB信息抽取的实现
        4.3.1 WEB信息抽取包装器的构造
        4.3.2 WEB抽取的基本流程
        4.3.3 通过样本页面,生成规则库
        4.3.4 获取整个网页的内容
        4.3.5 页面清洗与转换工作
        4.3.6 DOM树解析
        4.3.7 XML到数据库的转换
第五章 系统设计与运行实例
    5.1 总体设计
    5.2 开发工具
    5.3 包装器界面
        5.3.1 包装器运行界面
        5.3.2 数据结果
    5.4 集成检索界面与结果
第六章 总结与展望
参考文献
附录
致谢


【参考文献】:
期刊论文
[1]对WebFeat Express的认识、实践与思考[J]. 李欣.  图书馆学研究. 2010(02)
[2]ETL中的数据增量抽取机制研究[J]. 戴浩,杨波.  计算机工程与设计. 2009(23)
[3]图书馆数字信息资源整合模式探究[J]. 陈永选,郑乐丹.  四川图书馆学报. 2008(02)
[4]基于Web的信息抽取技术研究综述[J]. 蒲筱哥.  现代情报. 2007(10)
[5]CALIS数字图书馆资源统一检索系统评价研究[J]. 张宏亮.  图书馆学研究. 2007(10)
[6]数字资源整合技术在数字图书馆建设中的应用[J]. 彭泽华.  高校图书馆工作. 2007(05)
[7]高校图书馆数字资源体系建设浅析[J]. 朱嘉嘉.  科技情报开发与经济. 2007(15)
[8]TRS数据库统一检索平台的应用分析[J]. 冯洁,詹颖.  贵图学刊. 2006(04)
[9]ETL技术及其在数字图书馆中的应用研究[J]. 黄永文,李广建.  图书馆杂志. 2006(02)
[10]信息资源整合的建模与实现方法研究[J]. 章成志,苏新宁.  现代图书情报技术. 2005(10)



本文编号:3439742

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/3439742.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8e3f2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com