当前位置:主页 > 科技论文 > 软件论文 >

基于全覆盖粒计算模型的文本表示和特征提取研究

发布时间:2017-06-25 19:00

  本文关键词:基于全覆盖粒计算模型的文本表示和特征提取研究,由笔耕文化传播整理发布。


【摘要】:随着大数据时代的到来产生海量的文本数据资源,文本挖掘面临从按秒激增的文本中探求有价值信息的艰巨任务。文本表示模型和文本特征提取是文本挖掘领域的重要研究方向,能够智能地挖掘文本中的信息是文本挖掘领域的迫切需求。粒计算是人工智能领域中一门挖掘海量信息的新理论。本文寻求基于粒计算理论的文本表示模型和特征提取算法来挖掘海量文本信息是一种有益的尝试。基于LDA(Latent Dirichlet Allocation)的文本主题模型是建立在统计理论上的一种文本表示模型,其中关键词是表征主题语义的基本特征。LDA可以将某个主题下生成概率大的关键词提取出来,而这些关键词对于表征该主题未必重要。鉴于此,本文提出了一种基于集合论的文本表示模型,即文本的全覆盖粒计算模型(Full Covering Granular Computing Model of Texts,FCGMT),并在此基础上提出一种基于全覆盖粒计算模型的重要关键词提取算法,利用全覆盖的约简思想对LDA提取的关键词计算其重要度,从而选出表征该主题语义的关键词。用复旦大学语料库、搜狗新闻语料和网络抓取的实时语料三类型语料库做实验,与基于TFIDF的关键词提取算法和基于LDA的关键词提取算法做比较,证明本文算法的有效性。本文的主要研究内容有:1、在全覆盖粒计算模型的基础上设计文本的全覆盖粒计算模型表示方法,基于LDA主题模型的训练获得候选词,然后根据覆盖粒计算模型理论,找到语料库、文档、主题、候选词与论域、论域中的点、覆盖、覆盖元之间的一一对应关系,构建出文本的“主题-候选词-文档”全覆盖粒计算模型,给基于FCGMT的重要关键词提取算法提供理论依据。2、提出全覆盖粒的约简算法的一种改进方法,优化了全覆盖粒计算模型中属性约简的过程,针对文本特征的多维性,特征的属性重要度具有多样性并不是单纯的1和0,重新定义了属性重要度的度量方法。并通过重要关键词提取实验证明粒的约简的改进算法的有效性。3、设计了一种基于文本的全覆盖粒计算模型的关键词提取算法,首先在文档预处理和主题模型训练后得到候选词,然后利用全覆盖粒计算约简算法进行候选词权重的计算,通过实验分析找到候选词重要度的阈值的合理取值,从而提取出关键词。与两种经典的关键词提取算法进行比较,使用三种类型的语料库做实验,实验结果表明本文算法提取的关键词能较好的表征文档主题。关键词:
【关键词】:文本表示模型 粒计算 全覆盖 重要关键词提取
【学位授予单位】:太原理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
  • 摘要3-5
  • ABSTRACT5-10
  • 主要符号索引10-12
  • 第一章 绪论12-20
  • 1.1 选题背景及意义12-13
  • 1.2 研究现状13-16
  • 1.2.1 粒计算的研究概述13-14
  • 1.2.2 文档表示模型研究现状14-15
  • 1.2.3 文档关键词提取研究现状15-16
  • 1.3 本文的研究内容16-17
  • 1.4 论文的组织结构和章节安排17-20
  • 第二章 理论基础20-36
  • 2.1 全覆盖粒计算模型理论20-23
  • 2.1.1 全覆盖粒计算模型定义20-22
  • 2.1.2 全覆盖粒计算模型的知识约简22-23
  • 2.2 文本表示模型23-27
  • 2.2.1 布尔模型23-24
  • 2.2.2 向量空间模型24-25
  • 2.2.3 概率模型25-26
  • 2.2.4 图模型26-27
  • 2.3 关键词提取理论27-34
  • 2.3.1 文本特征27-28
  • 2.3.2 中文分词技术28-31
  • 2.3.3 关键词提取方法31-34
  • 2.4 本章小结34-36
  • 第三章 基于全覆盖粒计算模型的文本表示与关键词提取36-46
  • 3.1 文本的全覆盖粒计算模型36-40
  • 3.1.1 文本的全覆盖粒计算模型的构建36-38
  • 3.1.2 候选词的权重计算38
  • 3.1.3 模型示例38-40
  • 3.2 全覆盖粒的约简算法的改进40-42
  • 3.3 重要关键词提取算法42-44
  • 3.4 本章小结44-46
  • 第四章 实验与结果分析46-58
  • 4.1 实验准备46-50
  • 4.1.1 实验环境46
  • 4.1.2 实验语料46-48
  • 4.1.3 参数估计48-50
  • 4.2 评价方法50-51
  • 4.3 实验设计与结果分析51-55
  • 4.4 关键词可视化55-57
  • 4.4.1 数据可视化55
  • 4.4.2 图悦55-56
  • 4.4.3 可视化结果56-57
  • 4.5 本章小结57-58
  • 第五章 总结与展望58-60
  • 5.1 全文内容总结58
  • 5.2 研究展望58-60
  • 参考文献60-66
  • 致谢66-68
  • 攻读硕士学位期间发表的论文68

【参考文献】

中国期刊全文数据库 前10条

1 谢s,

本文编号:483146


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/483146.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户98ccd***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com