当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于云模型的新闻文本特征选择方法研究

发布时间:2021-05-01 02:26
  随着互联网技术的快速发展,网络中的文本以指数形式的速度增长向大众铺面而来。因此,如何提高新闻文本分类的高效性和准确性、提高高质量和智能化的新闻文本分类、快速提取出用户所需要的信息服务具有重要的意义。特征选择是新闻文本分类降维的主要方法之一。常用的特征选择方法考虑特征词与类别的关系不是很全,而且默认在均衡的数据集上。现存的文本特征选择方法往往存在一定的缺陷。新闻文本本身的多样性、复杂性、不确定性等特点,加上热词的增多,同时特征子集空间规模的大小不容易确定,给特征选择的研究带来了一定的难度。本文针对新闻文本中,特征及样本的不均衡问题,做了如下几个方面的研究工作:1、研究了新闻文本分类的相关理论与技术。深入理解几种常用的特征选择方法,并比较它们之间的优缺点及适用场景。2、新闻文本分类效果的优劣关键因素之一是特征子集的选择。针对常用特征选择技术的不足、特征项本身的不确定性,本课题在特征项粒度级应用了模糊集理论的知识,对期望交叉熵特征选择方法进行了改进,提出了模糊期望交叉熵(AFECE)的特征选择方法。通过三种常用的特征选择技术和AFECE特征选择技术,采用同一分类器模型,进行仿真。通过三个评价... 

【文章来源】:上海师范大学上海市

【文章页数】:61 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第1章 绪论
    1.1 研究背景及意义
    1.2 国内外的研究现状
    1.3 本文的主要研究工作
    1.4 本文组织结构
    1.5 本文的创新点
第2章 相关理论和技术
    2.1 文本分类
    2.2 文本的表示
        2.2.1 布尔模型
        2.2.2 概率模型
        2.2.3 空间向量模型
    2.3 特征选择和特征提取
        2.3.1 特征选择的过程
        2.3.2 特征选择的定义
        2.3.3 搜索策略
        2.3.4 评价标准
        2.3.5 特征子集选择的准则
        2.3.6 特征提取
    2.4 特征选择模型
        2.4.1 特征选择的原则
        2.4.2 卡方统计
        2.4.3 互信息模型
        2.4.4 期望交叉熵
    2.5 分类模型
        2.5.1 KNN分类模型
        2.5.2 NaiveBayes分类模型
    2.6 本章小结
第3章 模糊技术与传统方法结合的研究分析
    3.1 模糊技术
        3.1.1 模糊集的基本概念
        3.1.2 模糊相似矩阵
    3.2 基于模糊集期望交叉熵的特征选择方法
        3.2.1 隶属度函数的设计
        3.2.2 模糊期望交叉熵的确定
    3.3 本章小结
第4章 参数优化的特征选择方法
    4.1 粒子群优化算法
        4.1.1 粒子群算法
        4.1.2 二进制编码的粒子群算法
    4.2 基于云模型的粒子群文本特征选择方法
        4.2.1 云模型
        4.2.2 粒子编码
        4.2.3 适应度函数
        4.2.4 惯性权重的确定
        4.2.5 基于云模型的特征选择方法研究
    4.3 模糊化KNN分类模型
        4.3.1 隶属度函数的设计
        4.3.2 AFKNN算法流程图
    4.4 性能评价指标
    4.5 本章小结
第5章 实验结果与分析
    5.1 实验准备
        5.1.1 实验环境
        5.1.2 实验数据
        5.1.3 数据集样本分布
    5.2 实验结果与分析
        5.2.1 特征选择方法选出的特征子集
        5.2.2 基于AFECE特征选择算法结果分析
        5.2.3 基于云模型粒子群优化的特征选择结果与分析
        5.2.4 基于KNN分类器改进的模型
    5.3 本章小结
第6章 总结与展望
    6.1 总结
    6.2 展望
参考文献
攻读学位期间取得的研究成果
致谢


【参考文献】:
期刊论文
[1]基于人体姿态的PSO-SVM特征向量跌倒检测方法[J]. 麻文刚,王小鹏,吴作鹏.  传感技术学报. 2017(10)
[2]基于模糊关联优化的中文语义深度挖掘仿真[J]. 罗小玲,薛河儒.  计算机仿真. 2016(01)
[3]Short text classification based on strong feature thesaurus[J]. Bing-kun WANG1,2, Yong-feng HUANG1,2, Wan-xia YANG1,2, Xing LI1,2 (1Information Cognitive and Intelligent System Research Institute, Department of Electronic and Engineering, Tsinghua University, Beijing 100084, China) (2Information Technology National Laboratory, Tsinghua University, Beijing 100084, China).  Journal of Zhejiang University-Science C(Computers & Electronics). 2012(09)
[4]基于机器学习的中文微博情感分类实证研究[J]. 刘志明,刘鲁.  计算机工程与应用. 2012(01)
[5]基于经验模式分解的直觉模糊网络故障诊断[J]. 许翔宇,黄席樾,赵勇,黄勇.  重庆理工大学学报(自然科学版). 2010(04)
[6]消费者网络评论的情感模糊计算与产品推荐研究[J]. 那日萨,刘影,李媛.  广西师范大学学报(自然科学版). 2010(01)
[7]基于核主元分析的带可变惩罚因子最小二乘模糊支持向量机模型及其在信用分类中的应用[J]. 余乐安,汪寿阳.  系统科学与数学. 2009(10)
[8]一种基于ICA和模糊LDA的特征提取方法[J]. 王建国,杨万扣,郑宇杰,杨静宇.  模式识别与人工智能. 2008(06)

硕士论文
[1]基于粗糙集的Web文本分类技术研究[D]. 许庚寅.电子科技大学 2011
[2]KNN文本分类中特征词权重算法的研究[D]. 赵小华.太原理工大学 2010
[3]文本分类中特征提取和特征加权方法研究[D]. 蒋健.重庆大学 2010



本文编号:3169958

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3169958.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户af541***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com