WWW科技信息资源自动标引的理论与实践研究
发布时间:2020-12-07 16:49
随着因特网的迅速发展和广泛应用,它逐渐成为目前最大的信息资源宝库和最主要的信息交流渠道,由于因特网信息资源的显著特点是量大而无序,故随之出现了“数据丰富,知识贫乏”现象。现有的搜索引擎大多是基于关键字的全文检索系统,较少考虑信息的语义问题,因而不能够满足用户的不同需求,广大用户也很难利用它们来获取因特网中许多有价值的知识。为此,本论文针对WWW科技信息资源自动标引展开理论和实践两方面的研究,其主要研究目的如下:为处理因特网信息资源提供技术支持,为普通用户检索因特网信息资源提供便利,为建设中国数字图书馆提供新的研究思路。 论文提出了基于《中国分类主题词表》的WWW科技信息资源自动标引系统(STAI)设计方案,该系统具有WWW网页的格式自动检测与转换、自动分词与自由词标引、自动分类标引和主题标引等功能。STAI系统是一个自动化程度较高的易用型软件,该试验系统可以同时实现中英文网页的自动标引,兼顾了如何结合自然语言与情报检索语言二者在信息检索方面各自的优越性。在STAI系统设计和实践过程中,本论文做出了一定的创新性尝试。例如,采用了结构化程序设计方法等先进的程序设计思想,重视Activ...
【文章来源】:中国科学院大学(中国科学院文献情报中心)北京市
【文章页数】:130 页
【学位级别】:博士
【文章目录】:
第1章 引论
1.1 研究背景
1.2 研究目的
1.3 研究意义
1.4 主要技术难点
1.5 论文的组织安排
第2章 书面汉语自动分词
2.1 书面汉语自动分词概述
2.1.1 书面汉语自动分词的研究意义
2.1.2 书面汉语自动分词的难点
2.2 书面汉语自动分词方法评介
2.2.1 基于字符串匹配的分词方法(机械匹配法)
2.2.2 基于理解的分词方法
2.2.3 基于统计的分词方法
2.2.4 基于标志的分词方法
2.2.5 基于神经网络的分词方法
2.3 主要书面汉语自动分词系统评介
第3章 文献自动标引
3.1 自动标引相关概念
3.1.1 文献标引
3.1.2 文献自动标引
3.2 英语文献自动标引方法
3.3 汉语文献自动标引方法
第4章 文献自动分类
4.1 文献自动分类概述
4.1.1 文献自动分类的研究意义
4.1.2 文献自动分类的主要方法
4.2 自动分类国外研究概况
4.3 自动分类国内研究概况
4.3.1 基于词典法的中文自动分类系统
4.3.2 基于专家系统的中文自动分类系统
4.3.3 现有中文自动分类系统存在的缺陷
4.4 自动分类的未来发展方向
第5章 STAI系统的总体设计思想
5.1 STAI系统概述
5.2 STAI系统的功能设计
5.2.1 网页格式的自动检测与转换
5.2.2 关键词的自动抽取
5.2.3 WWW网页的自动标引
5.3 STAI系统的体系结构设计
5.4 STAI系统的开发环境
5.4.1 STAI系统的软件开发环境
5.4.2 STAI系统的硬件开发环境
5.5 STAI系统的数据库设计
5.5.1 STAI数据库的概念设计
5.5.2 STAI数据库的逻辑设计
第6章 格式预处理模块的实现
6.1 BIG5/GB码的自动检测和转换
6.1.1 BIG5/GB码的自动识别
6.1.2 BIG5/GB码的自动转换
6.2 创建BIG5/GB内码自动检测和转换ActiveX控件
6.2.1 BIG5GBControl控件的创建步骤
6.2.2 BIG5GBControl控件的实现情况
6.3 因特网文档格式的转换
6.3.1 因特网上的主要文档格式
6.3.2 将HTML格式自动转换成纯文本格式的实现
第7章 自动分词与自由词标引模块的实现
7.1 自动分词与自出词标引模块的主要设计思路
7.2 构造适用于书面汉语自动分词的机器词典
7.2.1 中文词典概况
7.2.2 构建适用于WWW科技信息资源自动标引的中文分词词典
7.3 自动分词与自由词标引模块的实现情况分析
第8章 自动分类和主题标引模块的实现
8.1 自动分类和主题标引模块的主要设计思路
8.1.1 自动分类和主题标引模块的技术难点
8.1.2 自动分类和主题标引模块的主要算法
8.2 构造用于自动分类标引和主题标引的分类机器词典
8.3 自动分类和主题标引模块的实现情况分析
第9章 结束语
9.1 研究工作总结
9.2 今后研究计划
参考文献
研究成果和发表文章目录
致谢
【参考文献】:
期刊论文
[1]国内外数字图书馆研究现状及未来走向[J]. 肖明,沈英. 现代图书情报技术. 2000(06)
[2]中国文献分类学研究50年(1949-1999)[J]. 白国应. 中国图书馆学报. 1999(05)
[3]中文信息自动分类系统及其神经网络优化算法[J]. 刁倩,王永成,张惠惠. 信息与控制. 1999(03)
[4]语言社群类型与台湾的外来词[J]. 史有为. 语言文字应用. 1999(02)
[5]二十年来现代汉语新词语的特点及其产生渠道[J]. 朱永锴,林伦伦. 语言文字应用. 1999(02)
[6]自动分类研究现状与展望[J]. 成颖,史九林. 情报学报. 1999(01)
[7]缺乏抽词词典是自动抽词标引难以普及的主要原因[J]. 张琪玉. 图书与情报. 1998(02)
[8]中文文献主题的自动标引[J]. 王永成,顾晓明,王丽霞. 情报学报. 1998(03)
[9]图书分类中应用专家系统的尝试[J]. 邓要武,崔光益,王连俊. 图书馆杂志. 1998(04)
[10]基于《金融档案分类表》的自动分类算法研究[J]. 刘开瑛,郑家恒,刘静. 情报学报. 1997(05)
博士论文
[1]Internet科技信息资源门户网站(STIP)系统的实践研究[D]. 张智雄.中国科学院文献情报中心 2000
本文编号:2903581
【文章来源】:中国科学院大学(中国科学院文献情报中心)北京市
【文章页数】:130 页
【学位级别】:博士
【文章目录】:
第1章 引论
1.1 研究背景
1.2 研究目的
1.3 研究意义
1.4 主要技术难点
1.5 论文的组织安排
第2章 书面汉语自动分词
2.1 书面汉语自动分词概述
2.1.1 书面汉语自动分词的研究意义
2.1.2 书面汉语自动分词的难点
2.2 书面汉语自动分词方法评介
2.2.1 基于字符串匹配的分词方法(机械匹配法)
2.2.2 基于理解的分词方法
2.2.3 基于统计的分词方法
2.2.4 基于标志的分词方法
2.2.5 基于神经网络的分词方法
2.3 主要书面汉语自动分词系统评介
第3章 文献自动标引
3.1 自动标引相关概念
3.1.1 文献标引
3.1.2 文献自动标引
3.2 英语文献自动标引方法
3.3 汉语文献自动标引方法
第4章 文献自动分类
4.1 文献自动分类概述
4.1.1 文献自动分类的研究意义
4.1.2 文献自动分类的主要方法
4.2 自动分类国外研究概况
4.3 自动分类国内研究概况
4.3.1 基于词典法的中文自动分类系统
4.3.2 基于专家系统的中文自动分类系统
4.3.3 现有中文自动分类系统存在的缺陷
4.4 自动分类的未来发展方向
第5章 STAI系统的总体设计思想
5.1 STAI系统概述
5.2 STAI系统的功能设计
5.2.1 网页格式的自动检测与转换
5.2.2 关键词的自动抽取
5.2.3 WWW网页的自动标引
5.3 STAI系统的体系结构设计
5.4 STAI系统的开发环境
5.4.1 STAI系统的软件开发环境
5.4.2 STAI系统的硬件开发环境
5.5 STAI系统的数据库设计
5.5.1 STAI数据库的概念设计
5.5.2 STAI数据库的逻辑设计
第6章 格式预处理模块的实现
6.1 BIG5/GB码的自动检测和转换
6.1.1 BIG5/GB码的自动识别
6.1.2 BIG5/GB码的自动转换
6.2 创建BIG5/GB内码自动检测和转换ActiveX控件
6.2.1 BIG5GBControl控件的创建步骤
6.2.2 BIG5GBControl控件的实现情况
6.3 因特网文档格式的转换
6.3.1 因特网上的主要文档格式
6.3.2 将HTML格式自动转换成纯文本格式的实现
第7章 自动分词与自由词标引模块的实现
7.1 自动分词与自出词标引模块的主要设计思路
7.2 构造适用于书面汉语自动分词的机器词典
7.2.1 中文词典概况
7.2.2 构建适用于WWW科技信息资源自动标引的中文分词词典
7.3 自动分词与自由词标引模块的实现情况分析
第8章 自动分类和主题标引模块的实现
8.1 自动分类和主题标引模块的主要设计思路
8.1.1 自动分类和主题标引模块的技术难点
8.1.2 自动分类和主题标引模块的主要算法
8.2 构造用于自动分类标引和主题标引的分类机器词典
8.3 自动分类和主题标引模块的实现情况分析
第9章 结束语
9.1 研究工作总结
9.2 今后研究计划
参考文献
研究成果和发表文章目录
致谢
【参考文献】:
期刊论文
[1]国内外数字图书馆研究现状及未来走向[J]. 肖明,沈英. 现代图书情报技术. 2000(06)
[2]中国文献分类学研究50年(1949-1999)[J]. 白国应. 中国图书馆学报. 1999(05)
[3]中文信息自动分类系统及其神经网络优化算法[J]. 刁倩,王永成,张惠惠. 信息与控制. 1999(03)
[4]语言社群类型与台湾的外来词[J]. 史有为. 语言文字应用. 1999(02)
[5]二十年来现代汉语新词语的特点及其产生渠道[J]. 朱永锴,林伦伦. 语言文字应用. 1999(02)
[6]自动分类研究现状与展望[J]. 成颖,史九林. 情报学报. 1999(01)
[7]缺乏抽词词典是自动抽词标引难以普及的主要原因[J]. 张琪玉. 图书与情报. 1998(02)
[8]中文文献主题的自动标引[J]. 王永成,顾晓明,王丽霞. 情报学报. 1998(03)
[9]图书分类中应用专家系统的尝试[J]. 邓要武,崔光益,王连俊. 图书馆杂志. 1998(04)
[10]基于《金融档案分类表》的自动分类算法研究[J]. 刘开瑛,郑家恒,刘静. 情报学报. 1997(05)
博士论文
[1]Internet科技信息资源门户网站(STIP)系统的实践研究[D]. 张智雄.中国科学院文献情报中心 2000
本文编号:2903581
本文链接:https://www.wllwen.com/tushudanganlunwen/2903581.html