基于神经网络的文本自动分类系统研究
发布时间:2020-05-26 06:13
【摘要】: 文本自动分类(Automatic Text Categorization, ATC)是指在给定的分类体系下,根据文本的内容自动确定文本所属类别的过程。文本自动分类使信息趋于有序化,便于信息的存储、检索、传播、开发和利用,是组织和管理海量信息的有效手段,是几乎所有基于内容的文本管理研究的基石,因此文本自动分类的研究具有较强的现实意义和应用价值。 神经网络分类法作为一种常用的文本自动分类方法,具有较强的自学习性和鲁棒性,但同时也普遍存在训练时间长,可解释性较差等缺点。径向基函数神经网络(Radial Basis Function Neural Network,简称RBFNN)具有网络设计简单、收敛速度快、泛化能力强、可解释性较好等特点,本文对RBFNN分类算法在中文文本自动分类中的应用进行了深入研究。 本文设计实现的RBFNN文本自动分类系统分为文本向量表示和RBFNN分类器的构建两个主要过程:首先,选用中国科学院计算所开发的汉语词法分析系统ICTCLAS对训练语料进行分词、去停用词处理,采用不同的特征选择和权重计算方法选取出相应的特征项构建文本向量空间;其次,通过k-均值聚类法对输入样本聚类,得到隐含层的最佳节点个数、中心及宽度,然后利用最小平方误差法训练得到输出层连接权值,完成RBFNN文本分类器的训练,并进行相关测试。实验结果表明,RBFNN分类器在中文文本自动分类中具有较理想的性能,测试平均F1值在85%以上。 此外,本文在总结常用分类器评价指标的基础上,提出了基于层次分析法(AHP)的文本自动分类系统影响因素指标体系,并根据专家调查问卷结果构造判断矩阵,利用AHP专用软件Expert Choice计算得到各评价指标的权重,即各指标对文本自动分类系统的影响程度,对本文文本自动分类系统的设计实验、性能测试起到指导作用。
【图文】:
的组织方法 C32:类别的组织方法包括平面分类和层次分见,近年来对层次分类的研究日益增多,但是效果不如平次分类更符合实际情况,满足用户的实际需求。方法 C33:文本分类器主要有两种测试方法——即开放测试测试是指用于训练和测试的数据集是一样的,而开放测试验中开放测试和封闭测试的结果往往相差较大,封闭性测会造成过学习问题,从而导致开放测试的效果较差。pert Choice 评价文本自动分类系统影响因素hoice 软件是以 AHP 为理论基础的决策分析工具软件,它直观,借着一对一的比较(Pair-Wise Comparison)和变的判断,减少复杂的计算过程并综合其结果。利用 Expe析可以分为以下三步:次结构模型(Direct Model Building)。新建一个目标为“分析”层次结构模型,并依次添加层次模型的准则层指标
图 5 几种常见的径向基函数如图 5 所示,随着与中心点距离的增大,Gaussian, Inverse Multiquadric, Ca呈单调递减趋势,Multiquadric 函数单调递增。形如高斯函数这种呈单调特基函数具有良好的局部特征(只在中心点附近的某一范围内反应显著,随着距离的增大,,其函数值逐渐趋于零),因此,这类径向基函数在实际中应用,其中高斯函数最为常用。.2 拓扑结构及映射关系标准的 RBFNN 是由输入层、非线性隐含层(径向基函数层)和线性输出层层结构的、多输入多输出的前馈型神经网络,其拓扑结构如图 6 所示。其中为输入层,作用是输入信息到隐含层;第二层为隐含层,由径向基函数(R,以训练样本的输入向量与隐含层节点权重向量的欧氏距离作为净输入,作入向量进行非线性变换;第三层为输出层,作用是对隐含层的输出作线性变换
【学位授予单位】:山东理工大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP391.1;G254.1
本文编号:2681403
【图文】:
的组织方法 C32:类别的组织方法包括平面分类和层次分见,近年来对层次分类的研究日益增多,但是效果不如平次分类更符合实际情况,满足用户的实际需求。方法 C33:文本分类器主要有两种测试方法——即开放测试测试是指用于训练和测试的数据集是一样的,而开放测试验中开放测试和封闭测试的结果往往相差较大,封闭性测会造成过学习问题,从而导致开放测试的效果较差。pert Choice 评价文本自动分类系统影响因素hoice 软件是以 AHP 为理论基础的决策分析工具软件,它直观,借着一对一的比较(Pair-Wise Comparison)和变的判断,减少复杂的计算过程并综合其结果。利用 Expe析可以分为以下三步:次结构模型(Direct Model Building)。新建一个目标为“分析”层次结构模型,并依次添加层次模型的准则层指标
图 5 几种常见的径向基函数如图 5 所示,随着与中心点距离的增大,Gaussian, Inverse Multiquadric, Ca呈单调递减趋势,Multiquadric 函数单调递增。形如高斯函数这种呈单调特基函数具有良好的局部特征(只在中心点附近的某一范围内反应显著,随着距离的增大,,其函数值逐渐趋于零),因此,这类径向基函数在实际中应用,其中高斯函数最为常用。.2 拓扑结构及映射关系标准的 RBFNN 是由输入层、非线性隐含层(径向基函数层)和线性输出层层结构的、多输入多输出的前馈型神经网络,其拓扑结构如图 6 所示。其中为输入层,作用是输入信息到隐含层;第二层为隐含层,由径向基函数(R,以训练样本的输入向量与隐含层节点权重向量的欧氏距离作为净输入,作入向量进行非线性变换;第三层为输出层,作用是对隐含层的输出作线性变换
【学位授予单位】:山东理工大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP391.1;G254.1
【引证文献】
相关硕士学位论文 前5条
1 李淑鹏;基于神经网络的文本自动分类系统的研究[D];武汉理工大学;2008年
2 孟凡红;中医药图书馆核心竞争力评价研究[D];中国中医科学院;2009年
3 龙浩;基于内容过滤的局域网防泄密系统的研究与实现[D];国防科学技术大学;2009年
4 赵行;SVM分类器置信度的研究[D];北京邮电大学;2010年
5 宋锡友;径向基神经网络的研究及在粒度软测量中的应用[D];东北大学;2009年
本文编号:2681403
本文链接:https://www.wllwen.com/tushudanganlunwen/2681403.html
教材专著