当前位置:主页 > 科技论文 > 计算机论文 >

云模型在文本挖掘应用中的关键问题研究

发布时间:2021-02-18 23:29
  文本挖掘(Text Mining,简称TM)是以文本信息作为挖掘对象,从中寻找信息的结构、模型、模式等隐含的、具有潜在价值知识的过程。TM在信息检索、模式识别、自然语言处理等等多个领域均有所涉及。由于文本是信息存储的最主要途径,因此TM的重要性也日益凸显。在目前TM的研究中,传统的数据挖掘方法依然占据着主导地位。然而随着TM技术研究的进一步深入,将传统的数据挖掘方法应用于TM面临着越来越严峻的挑战。例如文本对象的高维稀疏性、算法复杂度过高及需要先验知识等等问题,已经严重阻碍了TM技术的推广应用。TM面临的这些难题归根到底都是由于自然语言的不确定性造成的。自然语言中(尤其是文本语言)的不确定性,本质上来源于人脑思维的不确定性。这种不确定性使得人们具有更为丰富的理解空间与更为深入的认知能力,然而随之而来也形成了TM的众多难题。因此,若能从降低自然语言的复杂性入手,在充分利用现有技术的基础上勇于创新,探索出适用于TM的不确定性人工智能处理方法,将会大大促进TM技术的快速发展。借助不确定性知识研究的重要工具——云模型在定性概念与定量数据间的转换作用,作者将云理论引入TM关键问题研究当中。用以抛... 

【文章来源】:重庆大学重庆市 211工程院校 985工程院校 教育部直属院校

【文章页数】:110 页

【学位级别】:博士

【文章目录】:
中文摘要
英文摘要
图、表、公式目录
1 绪论
    1.1 课题的研究背景
    1.2 课题的选题意义
        1.2.1 推进信息化建设
        1.2.2 提高信息利用效率
        1.2.3 提高人工智能水平
        1.2.4 保障决策支撑
    1.3 课题的研究基础
        1.3.1 国内外研究现状
        1.3.2 面临的问题
        1.3.3 云模型在不确定性知识发现中的重要意义
    1.4 本文的工作
        1.4.1 本文的创新点
        1.4.2 本文结构安排
2 文本挖掘及其关键问题
    2.1 引言
    2.2 文本挖掘
        2.2.1 文本挖掘定义
        2.2.2 文本挖掘流程
    2.3 文本挖掘关键问题
        2.3.1 文本表示及特征提取
        2.3.2 文本分类系统概述及应用
        2.3.3 文本聚类系统概述及应用
    2.4 文本挖掘面临的挑战
    2.5 本章小结
3 云模型及其在文本挖掘中的理论扩充
    3.1 引言
    3.2 知识的不确定性
        3.2.1 知识的随机性
        3.2.2 知识的模糊性
        3.2.3 随机性与模糊性之间的内在联系
        3.2.4 自然语言的不确定性
    3.3 云模型
        3.3.1 自然语言中的概念
        3.3.2 概念中随机性与模糊性的关联性
        3.3.3 云模型
        3.3.4 云模型数字特征
        3.3.5 正态云及其普适性
        3.3.6 云模型常用算法
    3.4 基于云模型的概念层次划分
        3.4.1 概念层次
        3.4.2 概念层次的自动生成
        3.4.3 云变换
    3.5 基于VSM 模型的文本知识表示
        3.5.1 基于VSM 模型的文本表示
        3.5.2 基于信息表的文本知识表示
        3.5.3 基于云模型的文本信息表转换
    3.6 基于云相似度的文本相似度量
        3.6.1 文本挖掘中的相似度量
        3.6.2 云相似度及文本云相似度量
    3.7 本章小结
4 基于云模型的文本特征自动提取
    4.1 引言
    4.2 文本特征降维
        4.2.1 文本特征矩阵降维
        4.2.2 文本特征选择
        4.2.3 常用特征选择方法
    4.3 基于云模型的文本特征自动提取算法
2 统计量的文本特征分布矩阵">        4.3.1 基于χ2 统计量的文本特征分布矩阵
        4.3.2 算法描述
        4.3.3 实验及分析
    4.4 本章小结
5 基于云概念跃升的文本分类
    5.1 引言
    5.2 文本分类常用方法
        5.2.1 常用文本分类方法
        5.2.2 性能分析
    5.3 文本分类模型的评估
        5.3.1 采样方法
        5.3.2 评估指标
    5.4 基于云概念跃升的文本分类
        5.4.1 虚拟泛概念树及概念跃升
        5.4.2 算法描述
        5.4.3 实验及分析
    5.5 本章小结
6 基于云相似度量的无监督文本聚类
    6.1 引言
    6.2 文本聚类常用方法
        6.2.1 常用文本聚类方法
        6.2.2 算法性能比较
    6.3 文本聚类性能评价指标
    6.4 基于云相似度量的无监督文本聚类
        6.4.1 算法提出背景
        6.4.2 算法描述
        6.4.3 实验及分析
    6.5 本章小结
7 结束语
    7.1 本文的工作总结
    7.2 未来的工作展望
致谢
参考文献
附录
    A. 作者在攻读学位期间发表的论文目录
    B. 作者在攻读学位期间参加的科研项目



本文编号:3040259

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3040259.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户49527***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com