基于知识库的中文网络检索工具——经济信息智能搜索引擎研究
发布时间:2023-11-06 14:34
本论文试图从计算机技术和图书情报学理论与实践手段出发,应用文献信息自动标 引和组织技术于网页的加工处理过程上。在分析了中外搜索引擎的现状与不足,搜索引 擎分类主题一体化进展以及网页主要特征的基础上,本文提出了针对中文网页特征的信 息标引和组织方案,并利用相关网络技术,构建了一个实验性经济信息智能搜索引擎。 中文网页的自动标引思想主要基于知识库的概念进行。知识库实际上是一个基于《中 图法》的专家知识系统,包括了中图法库、汉表库、分类号—主题词对应库、同义词库、 关键词库、停用词库和特例词库等若干数据库。在确定网页基本信息标引源的基础上, 中文网页主题标引运用了基于词频的统计加权法;通过与分类号—主题词对应库主题词 串的词面相似度计算,进一步完成中文网页的赋号标引,即分类标引。 随后,本文利用Borland Delphi、Visual FoxPro等工具设计并开发了一个包括中文网 页文本信息提取、自动抽词、自动主题与分类标引、标引结果处理、知识库维护等功能, 用以处理中文网页信息的自动标引实验系统;并简要介绍了系统的设计、工作流程、使 用方法及运行条件。 根据分类主题一体化发展方向,本文还设计了检索型、目录型及分类主题一体化检 索系统,并提出基于集成词表的不同引擎间类目体系的兼容互换方案。 文章的最后对中文网页自动标引系统从系统标引效率、标引准确率等方面进行了综 合测评,并客观分析了系统存在的问题和不足。与手工标引相比,自动标引正确率达到 了80%以上。
页数:69
【学位级别】:硕士
文章目录
前 言
第一章 搜索引擎研究现状综述
第一节 西文搜索引擎技术研究现状
第二节 中文搜索引擎技术研究现状
第三节 网络目录组织及分类主题一体化研究进展
第四节 中文搜索引擎存在问题及发展方向
第五节 基于知识库的经济信息智能搜索引擎构建思路
第二章 知识库的组成、功能与设计
第一节 知识库的组成与功能
第二节 分类号—主题词(串)对应数据库的设计
第三节 同义数据库的的设计
第四节 关键词数据库的设计
第五节 辅助用知识库的设计
第三章 智能搜索引擎标引组织机制的实现(一)
第一节 网页的基本特征与文本信息标引源
第二节 网页文本信息主题标引技术
第三节 网页文本信息主题标引方案
第四节 标引方案的优选及存在问题
第四章 智能搜索引擎标引组织机制的实现(二)
第一节 计算机自动分类技术
第二节 词面相似度分类算法
第三节 中文网页的自动分类
第五章 智能搜索引擎标引组织实验系统的设计与使用
第一节 标引组织实验系统设计
第二节 中文网页信息计算机标引系统的使用
第六章 智能搜索引擎用户检索机制的实现与系统的设计
第一节 智能搜索引擎用户检索机制的实现
第二节 检索实验系统的设计
第七章 网页自动标引系统运行性能测试及评价
第一节 网页自动标引系统性能测试
第二节 网页自动标引系统评价
附录A 分类知识库记录样本
附录B 手工标引和自动标引(方案Ⅰ、Ⅱ、Ⅲ)结果
参考文献
后 记
[1] Web页面中文文本主题的自动提取研究. 韩客松,王永成,滕伟.情报学报,2001
[2] 分类搜索引擎类目体系研究. 马张华.图书情报工作,2001
[3] 统计分析法自动标引的改进. 赵云志.情报学报,2000
[4] 中文文献自动分类中的知识库构造及其仿人算法. 刁倩,张惠惠,王永成,何骥.情报学报,2000
本文编号:87728
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/87728.html