面向专题情报服务的领域知识库构建平台研究
发布时间:2017-05-13 00:05
本文关键词:面向专题情报服务的领域知识库构建平台研究,由笔耕文化传播整理发布。
【摘要】:本文针对互联网环境下文献资源数据量巨大、更新变化迅速,完全依靠传统的文献加工、处理方式无法满足新环境需求的问题,提出了面向图书情报机构专题情报服务的领域知识库构建平台研究课题。围绕该平台的服务模式、逻辑架构、技术体系及应用问题等进行了深入的探讨和研究,从系统开发与应用的角度详细分析并探讨了系统平台中涉及的关键技术,在此基础上设计并开发了面向专题情报服务的领域知识库构建平台。该平台能够辅助图书情报工作者构建领域知识库,从而进一步提高科技文献资源加工、处理和知识组织与利用的工作效率和服务能力。本文的主要工作和研究成果主要体现在以下四个方面:(1)针对专题情报服务工作中面临的多种异构文献资源采集、组织、加工处理问题,结合文献资源的特点和专题情报服务的需求,实现了网页文献资源的自动采集。在此基础上,参考都柏林核心元数据模型,提出了面向专题情报服务的统一资源描述规范,支持对常见文献资源的描述和存储,有利于对异构资源进行统一管理,为跨平台的资源共享及进一步加工和利用提供了便利。(2)基于现有算法和模型分别提出了改进的关键词提取、摘要提取和内容分类算法。基于统计模型和N元语言模型,结合特征词词频、词长、词性、位置等信息,提出了适用于专题情报服务文献资源的关键词提取算法,且算法具有领域无关性,能够有效地识别未登陆词;采用基于统计的自动摘要算法,结合句子的内容和位置等信息,综合评价候选摘要句的权重,实现了摘要自动提取算法,该算法针对摘要中可能存在重复摘要句的问题,利用摘要句之间的相似度计算过滤冗余摘要句;基于朴素贝叶斯分类算法,实现了文献资源的自动分类,本文在算法具体实现时,对待分类项和训练样本中的特征项赋予不同的权重,相比原朴素贝叶斯分类算法取得了更好的分类效果。(3)从文献资源宏观分析角度出发,利用HDP主题模型,对数据集进行了主题分析及外部/内部特征统计分析,基于HDP主题模型,提出了面向资源检索情境的文献推荐模型,该模型能够从语义分析角度将文献特征相似度计算转换为隐含文献特征语义的主题相似度计算,提高了推荐文献的准确率。此外,文献推荐模型中还引入了时间权重,在文献检索时,能够优先推荐较新文献或与当前文献发表时间较接近的文献。(4)从实际需求出发,基于.Net平台设计并实现了一个面向专题情报服务的领域知识库构建平台。该平台能够实现从资源采集、资源组织到资源加工、资源利用等多方面的功能,通过相关数据实验,验证了本系统平台的技术可行性,具有一定的实践意义。
【关键词】:专题服务 知识库 知识库构建 主题分析 文献推荐
【学位授予单位】:南京理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:G250.74
【目录】:
- 摘要5-6
- Abstract6-13
- 1 绪论13-26
- 1.1 研究背景及研究意义13-14
- 1.2 相关理论及研究综述14-20
- 1.2.1 专题情报服务14-16
- 1.2.2 知识服务16-17
- 1.2.3 数据库与知识库17-18
- 1.2.4 知识表示18-19
- 1.2.5 知识库构建19-20
- 1.3 本文的主要工作20-26
- 1.3.1 研究内容20-22
- 1.3.2 论文总体思路与章节安排22-24
- 1.3.3 论文创新点24-26
- 2 面向专题情报服务的领域知识库构建平台框架26-34
- 2.1 系统目标和服务模式26-27
- 2.1.1 系统目标26-27
- 2.1.2 服务模式27
- 2.2 系统平台逻辑架构27-30
- 2.3 系统平台技术体系30-33
- 2.3.1 系统开发技术30-31
- 2.3.2 系统体系结构31-32
- 2.3.3 系统功能模块32-33
- 2.4 本章小结33-34
- 3 网络资源组织与特征抽取34-54
- 3.1 网络资源采集34-37
- 3.1.1 基于搜索引擎中介的网络资源检索34-36
- 3.1.2 网络资源正文提取36-37
- 3.2 资源描述37-38
- 3.3 资源预处理38-39
- 3.4 关键词提取39-44
- 3.4.1 关键词提取算法概述39-40
- 3.4.2 基于ICTCLAS分词和N-Gram的关键词提取40-42
- 3.4.3 关键词提取评价42-43
- 3.4.4 实验及结果分析43-44
- 3.5 自动摘要44-48
- 3.5.1 自动摘要算法概述44-45
- 3.5.2 基于统计的自动摘要45-46
- 3.5.3 摘要句去重46-47
- 3.5.4 摘要质量评价47
- 3.5.5 实验及结果分析47-48
- 3.6 内容分类48-52
- 3.6.1 文本特征提取48-49
- 3.6.2 文本分类算法49-50
- 3.6.3 基于朴素贝叶斯的文本分类50-51
- 3.6.4 分类质量评价51
- 3.6.5 实验及结果分析51-52
- 3.7 本章小结52-54
- 4 文献资源主题特征分析54-69
- 4.1 主题及主题模型54-57
- 4.1.1 主题的定义54
- 4.1.2 主题表示54-55
- 4.1.3 典型主题模型概述55-57
- 4.2 基于HDP的主题分析57-64
- 4.2.1 基于HDP的主题分析步骤57-58
- 4.2.2 实验及结果分析58-64
- 4.3 基于主题模型的文献资源推荐64-68
- 4.3.1 文献资源推荐模型概述65-66
- 4.3.2 基于主题模型的文献资源推荐66-67
- 4.3.3 实验及结果分析67-68
- 4.4 本章小结68-69
- 5 领域知识库构建平台的设计与实现69-86
- 5.1 系统总体模块设计69-70
- 5.2 系统设计与实现70-76
- 5.2.1 系统开发及运行环境70-71
- 5.2.2 文献资源组织形式71-74
- 5.2.3 数据库表结构设计74-76
- 5.3 系统功能界面76-85
- 5.3.1 文献资源管理76-78
- 5.3.2 文献加工处理78-80
- 5.3.3 文献主题分析80-82
- 5.3.4 文献检索推荐82-84
- 5.3.5 系统管理84-85
- 5.4 本章小结85-86
- 6 研究总结与进一步工作86-89
- 6.1 研究总结86-87
- 6.2 进一步工作87-89
- 致谢89-90
- 参考文献90-96
- 附录96
【参考文献】
中国期刊全文数据库 前10条
1 宋白玉;赵桂云;;网格环境下基于本体的资源描述[J];电脑知识与技术;2009年09期
2 董军,肖少拥;知识库系统的现状与发展趋势[J];计算技术与自动化;1995年03期
3 余旭;刘继红;何苗;;基于领域本体的复杂产品设计知识检索技术[J];计算机集成制造系统;2011年02期
4 薛春香;夏祖奇;侯汉清;;基于语料和基于标引经验的自动分类模式比较[J];南京农业大学学报(社会科学版);2005年04期
5 李碧清;霍敏;薛涛;程志臻;杨懿菲;;面向重大课题的专题信息服务研究[J];科技情报开发与经济;2013年09期
6 张秀伟;何克清;王健;刘建晓;;Web服务个性化推荐研究综述[J];计算机工程与科学;2013年09期
7 刘端阳;王良芳;;结合语义扩展度和词汇链的关键词提取算法[J];计算机科学;2013年12期
8 丁雪;;基于数据挖掘的图书智能推荐系统研究[J];情报理论与实践;2010年05期
9 杨淇,
本文编号:361138
本文链接:https://www.wllwen.com/tushudanganlunwen/361138.html
教材专著