当前位置:主页 > 社科论文 > 图书档案论文 >

数字图书馆中基于统计的自动文本分类方法研究

发布时间:2020-12-19 16:27
  数字图书馆是保存大量信息和知识的数字化资源库,自动文本分类是数字图书馆中进行信息组织和管理的核心技术。自动文本分类是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。本文在国家科学数字图书馆的应用背景下,研究基于统计的自动文本分类方法。 为了对文档进行充分表达,本文提出了中文文本多层次特征表示方法。多层次特征表示方法在汉字、常用词表和专业词表三个层次上提取文档的统计特征,能够更好地反映文档的统计分布,提高分类性能。 针对标准KNN算法的不足,本文提出了基于核的距离加权KNN算法,能够解决样本的多峰分布、边界重叠问题和分类器的精确分类决策问题。 互联网和文本库中有很多经过粗分类的训练文本,但普遍存在样本内容重复和质量过差的问题,这严重影响了文本分类器的性能。本文提出基于排序特征的快速冗余文档检测算法,去除样本中冗余文档。为了解决训练样本质量过差的问题,本文通过重要性分析方法进行训练文本选择。 在国家科学数字图书馆中,学科主题词表中包含一些语义映射关系。本文使用互信息度量不同主题词对不同类别的区分度,同时利用主题词表中的语义映射关系,这种方法混合使用了... 

【文章来源】:中国科学院大学(中国科学院计算技术研究所)北京市

【文章页数】:58 页

【学位级别】:硕士

【部分图文】:

数字图书馆中基于统计的自动文本分类方法研究


不同词特征权重下的分类准确率

【参考文献】:
期刊论文
[1]近似镜像网页检测算法的研究与评价[J]. 王建勇,谢正茂,雷鸣,李晓明.  电子学报. 2000(S1)
[2]关于统计学习理论与支持向量机[J]. 张学工.  自动化学报. 2000(01)
[3]中文文档自动分类系统的设计与实现[J]. 邹涛,王继成,黄源,张福炎.  中文信息学报. 1999(03)
[4]基于向量空间模型的文档分类系统[J]. 黄萱菁,吴立德.  模式识别与人工智能. 1998(02)
[5]汉语语料的自动分类[J]. 吴军,王作英,禹锋,王侠.  中文信息学报. 1995(04)



本文编号:2926216

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/2926216.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c5f2b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com