当前位置:主页 > 科技论文 > 搜索引擎论文 >

结合权重因子与特征向量的文本聚类研究与应用

发布时间:2017-10-08 04:27

  本文关键词:结合权重因子与特征向量的文本聚类研究与应用


  更多相关文章: 文本聚类 权重因子 特征向量 遗传K-均值 遗传控制因子 舆情


【摘要】:文本聚类是通过聚类算法将同类的文本划分到同一簇的过程,该过程涉及到文本预处理和文本聚类算法执行两个方面。文本聚类方法目前已经被广泛的应用于舆情分析、搜索引擎、电子图书等服务。文本聚类过程属于典型的无监督学习方法,在聚类之前无需知道每个类别的描述信息。这也是文本聚类的难点,众多研究者都对其进行研究,并取的了丰富的研究成果。在文本进行聚类之前需对文本进行预处理,需要通过使用数学的方法表示文本,一般通过向量空间模型对文本进行表示。通过该模型表示的文本都是由文本本身的特征词与其权重构成的向量。但通过传统方法计算的特征词权重在表示文本时有一定的局限性,不能通过特征词权重充分体现文本间的差异性。而且在传统模型中不会考虑特征词出现的先后顺序,更不会考虑特征词在不同位置出现代表的意义是否相同。还有文本聚类算法的选择对聚类效果影响也很大,多数聚类算法不能很好的结合文本的编码方案。本文主要对文本聚类方法的改进和应用做了如下研究:1、首先分析了传统特征词权重计算方法对通过特征词权重表示文本的局限性,并且通过权重因子对特征词权重计算方法做出了改进。该方法强调了特征词权重在文本集合中的重要性,而不是单纯的想通过特征词权重表示文本,增强了同类文本之间的相似度。并在对文本进行编码时修改了传统的VSM编码方案,使文本向量由四条特征向量组成,并对特征向量加上位置权重信息。最后考虑到文本编码方案的修改对文本间相似度计算的影响,重构了文本相似度计算公式。2、其次根据改进的文本预处理和编码方案,通过遗传控制因子(GCF)对遗传K-均值文本聚类算法进行改进。使用GCF对遗传算子操作进行控制,使得算子中的优质个体一定被引入下一代,从而克服了遗传K-均值算法算子操作的低效性。使其应用到本文改进的文本编码方案中能更好的改进聚类效果并且提高聚类精度。最后对改进的文本聚类方法进行实验分析,证明了改进的方法在文本聚类精度上有明显提高。3、最后将结合权重因子和特征向量改进的文本聚类算法应用到舆情热点发现中,对具体应用做了详细分析和流程安排。实验结果表明,改进方法对舆情热点的趋势和预警研究很有帮助。
【关键词】:文本聚类 权重因子 特征向量 遗传K-均值 遗传控制因子 舆情
【学位授予单位】:江西理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
  • 摘要4-5
  • Abstract5-10
  • 第一章 绪论10-15
  • 1.1 课题研究的背景及意义10-11
  • 1.2 研究现状与困难11-13
  • 1.2.1 国内外研究现状11
  • 1.2.2 面临的困难11-13
  • 1.3 本论文的主要工作和结构安排13-15
  • 1.3.1 本论文的主要研究内容13
  • 1.3.2 文章的结构安排13-15
  • 第二章 文本聚类相关技术概述15-25
  • 2.1 文本预处理15-18
  • 2.1.1 文本分词技术16-17
  • 2.1.2 去除停用词和低频词17-18
  • 2.1.3 同义词的并归18
  • 2.2 文本特征选择18-20
  • 2.2.1 特征选择方法18-20
  • 2.3 降维处理20
  • 2.4 文本聚类方法20-21
  • 2.5 聚类统计量和评估21-23
  • 2.5.1 统计量21-22
  • 2.5.2 聚类评估22-23
  • 2.6 聚类评价函数23-24
  • 2.6.1 F1-measue指标23-24
  • 2.6.2 平均准确率24
  • 2.7 小结24-25
  • 第三章 结合权重因子与特征向量改进的文本预处理方法25-35
  • 3.1 文本的表示方法25-26
  • 3.2 特征词权重的计算方法26-27
  • 3.3 文本相似度计算方法27-28
  • 3.4 改进的文本预处理方法28-30
  • 3.4.1 通过权重因子改进TF-IDF算法28
  • 3.4.2 根据特征向量修改表示方法28-29
  • 3.4.3 重构余弦相似度计算方法29
  • 3.4.4 聚类步骤及流程图29-30
  • 3.5 实验分析30-34
  • 3.5.1 特征词选取和测试环境30-31
  • 3.5.2 测试标准31
  • 3.5.3 实验过程31-32
  • 3.5.4 实验结果分析32-34
  • 3.6 小结34-35
  • 第四章 遗传控制因子改进的遗传K均值文本聚类算法35-51
  • 4.1 遗传K-均值35-38
  • 4.1.1 K-均值35-36
  • 4.1.2 遗传算法36-37
  • 4.1.3 遗传K-均值算法37-38
  • 4.2 GGKM文本聚类算法38-45
  • 4.2.1 遗传控制因子(GCF)39-40
  • 4.2.2 适应度函数设计40
  • 4.2.3 GGKM算法算子操作40-42
  • 4.2.4 准则函数设计与终止条件42-43
  • 4.2.5 GGKM步骤及流程图43-45
  • 4.3 文本聚类方法实验45-50
  • 4.3.1 实验设计45
  • 4.3.2 评价标准和参数设置45-46
  • 4.3.3 降维处理46
  • 4.3.4 实验步骤与结果分析46-50
  • 4.4 小结50-51
  • 第五章GGKM在舆情热点发现的应用51-55
  • 5.1 舆情热点发现51-52
  • 5.1.1 舆情分析步骤51
  • 5.1.2 舆情热点发现与流程图51-52
  • 5.2 实验分析52-54
  • 5.2.1 实验介绍52-53
  • 5.2.2 结果分析53-54
  • 5.3 小结54-55
  • 第六章 结论与展望55-56
  • 参考文献56-59
  • 致谢59-60
  • 攻读学位期间的研究成果60-61

【参考文献】

中国期刊全文数据库 前1条

1 王炳章;非参数回归函数的k_n近邻估计的渐近性质及其Bootstrap逼近[J];应用数学学报;2001年03期

中国硕士学位论文全文数据库 前1条

1 何金凤;基于中文信息检索的文本预处理研究[D];电子科技大学;2008年



本文编号:991997

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/991997.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e5e7e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com