基于向量空间模型与规则匹配相结合的文本层次分类系统的研究
发布时间:2020-05-29 00:18
【摘要】:随着网络的普及与发展,数字化电子类信息资源极大的丰富和流通。对Internet上海量信息的有效组织和处理是网络时代所面临的巨大挑战。分门别类地对其进行自动分类,是当前图书情报及计算机界研究的热点。在这一领域,人们已经进行了大量的研究。但较为实用且可行的系统却不多。为此本系统研究了对海量数字资源进行特征抽取、表示、分类的方法和相关技术,为数字资源的自动化处理提供可参考的依据和可行的方案。 在该分类系统的构建过程中,本系统着重从以下几方面进行系统开发:探索有效的特征抽取与选择方法,找出其权值表示模式,尤其是关键词词表的构造与维护。在统计与规则两类不同分类方法中找到其切合点,探索如何将两种方法进行结合,发挥其各自的优点,提升分类器的效率和准确性。探索线性分类与层次分类的区别与联系,找出采用层次分类的优势所在,实验其可行性。探索自动分类技术在现实环境中的实用性,解决现实中存在的一些阻碍因素。在本文中我们分别给出了这些问题的解决方案和处理的算法和流程及相应的数据结构。针对研究过程中遇到的问题,本系统在应用相关领域的研究成果基础上,提出了多个新的算法和思路: ● 借鉴关键词轮排原理,结合相关统计模型,从正反两个方向对原始抽词词典进行压缩和优选,达到降维和准确表达主题的目的; ● 针对不同特征选择及权值计算方法的特点,采用多方法结合以投票方式进行特征选择和权值赋值,提高标引准确性; ● 针对分类体系的特点,研究提出逐级分类的算法,达到快速准确进行分类的目的; ● 验证统计与决策规则两种方法的切合点,即双重分类的分界阈值; ● 探索在保持分类能力的前提下,影响分类速度的相关因素,,并提出改善方案。 基于以上几个方面,本文对该自动分类系统进行了海量新闻文本和基于《中图法》分类体系的VIP期刊论文分类的实验研究,测试结果表明,该系统具有进行大规模文本自动分类的可行性和实用性,分类效果基本上可以达到普通文本分类实用要求。
【图文】:
多层次分类过程流程示意图
图5一3分类过程示例图
【学位授予单位】:南京农业大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:G254.1
本文编号:2686062
【图文】:
多层次分类过程流程示意图
图5一3分类过程示例图
【学位授予单位】:南京农业大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:G254.1
【引证文献】
中国重要会议论文全文数据库 前1条
1 衡中青;侯汉清;;地方志引书挖掘及其引书分析研究[A];2007年中国索引学会年会暨学术研讨会论文集[C];2007年
中国博士学位论文全文数据库 前2条
1 安璐;基于自组织映射的期刊主题研究[D];武汉大学;2009年
2 衡中青;地方志知识组织及内容挖掘研究[D];南京农业大学;2007年
本文编号:2686062
本文链接:https://www.wllwen.com/tushudanganlunwen/2686062.html
教材专著