数字图书馆中基于统计的自动文本分类方法研究

发布时间：2020-12-19 16:27

　　数字图书馆是保存大量信息和知识的数字化资源库，自动文本分类是数字图书馆中进行信息组织和管理的核心技术。自动文本分类是在给定的分类体系下，让计算机根据文本的内容确定与它相关联的类别。本文在国家科学数字图书馆的应用背景下，研究基于统计的自动文本分类方法。为了对文档进行充分表达，本文提出了中文文本多层次特征表示方法。多层次特征表示方法在汉字、常用词表和专业词表三个层次上提取文档的统计特征，能够更好地反映文档的统计分布，提高分类性能。针对标准KNN算法的不足，本文提出了基于核的距离加权KNN算法，能够解决样本的多峰分布、边界重叠问题和分类器的精确分类决策问题。互联网和文本库中有很多经过粗分类的训练文本，但普遍存在样本内容重复和质量过差的问题，这严重影响了文本分类器的性能。本文提出基于排序特征的快速冗余文档检测算法，去除样本中冗余文档。为了解决训练样本质量过差的问题，本文通过重要性分析方法进行训练文本选择。在国家科学数字图书馆中，学科主题词表中包含一些语义映射关系。本文使用互信息度量不同主题词对不同类别的区分度，同时利用主题词表中的语义映射关系，这种方法混合使用了...

【文章来源】：中国科学院大学(中国科学院计算技术研究所)北京市

【文章页数】：58 页

【学位级别】：硕士

【部分图文】：

不同词特征权重下的分类准确率

【参考文献】：
期刊论文
[1]近似镜像网页检测算法的研究与评价[J]. 王建勇,谢正茂,雷鸣,李晓明.  电子学报. 2000(S1)
[2]关于统计学习理论与支持向量机[J]. 张学工.  自动化学报. 2000(01)
[3]中文文档自动分类系统的设计与实现[J]. 邹涛,王继成,黄源,张福炎.  中文信息学报. 1999(03)
[4]基于向量空间模型的文档分类系统[J]. 黄萱菁,吴立德.  模式识别与人工智能. 1998(02)
[5]汉语语料的自动分类[J]. 吴军,王作英,禹锋,王侠.  中文信息学报. 1995(04)

本文编号：2926216

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/tushudanganlunwen/2926216.html

上一篇：基于网络直播的公共图书馆阅读推广研究——以济南市图书馆“交享阅”书房领读人行动为例
下一篇：我国干部人事档案管理研究 ——以安徽省干部人事档案审核工作为视角

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|