中文文本关键词提取和文本聚类中聚类中心点选取算法研究
本文关键词:中文文本关键词提取和文本聚类中聚类中心点选取算法研究,由笔耕文化传播整理发布。
【摘要】:现今文本处理领域研究的热点是如何方便用户快速准确的搜索到所需要的文本信息。文本聚类可以提高信息搜索效率,是文本检索的有效手段。关键词提取和聚类中心点选取是文本聚类研究中的关键问题。常见的关键词提取算法可分为三类,基于语义的算法、基于机器学习的算法和基于统计模型的算法。基于语义的算法提高了关键词提取的准确率,但是依赖于背景知识库、词典等,无法提取出不包含于知识库的词或词组。基于机器学习的算法提高了关键词提取的准确率,但是训练样本、构建模型花费时间长。基于统计模型的算法原理简单,不需要训练样本,也不依赖于知识库。常见的聚类中心的选取方式有三种,随机选取初始聚类中心点、人为指定聚类中心点和根据待聚类点之间的相似度选取聚类中心点。随机选取的初始聚类中心点中可能包含“孤立点”,聚类结果局部最优。人为指定聚类中心点会因为每个人对文本集的了解程度不同而带有主观性,不适用于文本集数量很大的情况。根据待聚类点之间的相似度选取聚类中心点,可以使得选取的聚类中心点分布于各个类中并且尽量接近类中心点,但是计算聚类中心所需时间较长。针对上述问题,本文做了如下研究:(1)本文提出了基于词或词组长度和频数的关键词提取算法,算法首先提取出中文文本中出现频数较大的词或者词组,然后根据提取出的词或者词组的长度和在文本中出现的频数筛选出该文本的关键词。与现有的算法相比,本文提出的算法不依赖于背景知识库、词典等,可以提取出文本中的音译词和网络新词,无需通过对训练样本的训练获得统计参数,构建模型。实验显示本文提出的关键词提取算法,关键词提取的准确率较高,提取出的关键词可以反映出该文本的主题。(2)本文提出了基于文本之间相似度的聚类中心点选取算法,算法首先根据给定的文本集以及文本集中各个文本对应的关键词序列,构建向量空间模型,接着计算各个文本与其他文本之间的相似度,最后依据各个文本与其他文本之间的相似度筛选出聚类中心点。与现有的算法相比,本文算法选取的聚类中心点与较多的文本之间存在相似性且相似度值较大,同时相互之间的相似度较小。实验显示本文提出的聚类中心点选取算法选取的聚类中心点分布于各个类中并且与类中心点接近。
【关键词】:中文文本处理 文本聚类 关键词提取 音译词 网络新词 聚类中心点 向量空间模型
【学位授予单位】:江苏大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 摘要4-6
- ABSTRACT6-10
- 第一章 绪论10-16
- 1.1 研究背景及意义10-11
- 1.1.1 文本关键词提取10-11
- 1.1.2 聚类中心点选取11
- 1.2 国内外研究现状11-13
- 1.2.1 文本关键词提取12-13
- 1.2.2 聚类中心点选取13
- 1.3 本文研究的主要内容13-14
- 1.4 本文的组织结构14-16
- 第二章 相关研究工作16-24
- 2.1 文本关键词提取16-19
- 2.1.1 基于统计模型的关键词提取算法16-19
- 2.1.2 基于语义的关键词提取算法19
- 2.1.3 基于机器学习的关键词提取算法19
- 2.2 聚类中心点的选取19-23
- 2.2.1 文本聚类19-22
- 2.2.2 现有的聚类中心点选取算法22
- 2.2.3 聚类中心点选定算法的难点22-23
- 2.3 小结23-24
- 第三章 基于词或词组长度和频数的关键词提取算法24-38
- 3.1 问题的提出24-25
- 3.2 相关工作25-26
- 3.3 基于词或词组长度和频数的关键词提取算法26-34
- 3.3.1 算法的基本思想27-28
- 3.3.2 算法28-32
- 3.3.3 与相关工作的比较32-34
- 3.4 实验及分析34-37
- 3.4.1 实验34
- 3.4.2 实验结果及分析34-37
- 3.5 小结37-38
- 第四章 基于文本之间相似度的聚类中心点选取算法38-56
- 4.1 问题的提出38
- 4.2 相关工作38-41
- 4.3 基于文本之间相似度的聚类中心点选取算法41-50
- 4.3.1 算法的基本思想41-42
- 4.3.2 算法42-49
- 4.3.3 与相关工作的比较49-50
- 4.4 实验及分析50-54
- 4.4.1 实验50-51
- 4.4.2 实验结果及分析51-54
- 4.5 小结54-56
- 第五章 总结和展望56-58
- 5.1 工作总结56-57
- 5.2 研究展望57-58
- 参考文献58-64
- 致谢64-66
- 硕士期间发表论文66
【相似文献】
中国期刊全文数据库 前10条
1 黄旭;吕强;钱培德;;一种用于蛋白质结构聚类的聚类中心选择算法[J];自动化学报;2011年06期
2 樊晓光;路钊;王久崇;李国栋;谢朝政;;基于密度和距离积的聚类中心选取方法[J];测控技术;2013年10期
3 赵峰;张军英;刘敬;;核最优变换与聚类中心的算法[J];西安电子科技大学学报;2009年01期
4 朱云贺;张春海;张博;;基于数据分段的K-means的优化研究[J];计算机技术与发展;2010年11期
5 李春生;王耀南;;聚类中心初始化的新方法[J];控制理论与应用;2010年10期
6 陈侃;李彬;田联房;;基于局部阈值和聚类中心迭代的肺结节检测算法[J];计算机科学;2012年02期
7 关学忠,韩彩霞,韩振洲;神经模糊系统中模糊规则的优化[J];大庆石油学院学报;2005年01期
8 刘舒野;林和平;杨晨;;基于归并聚类中心思想的模糊聚类分析方法研究[J];航空计算技术;2007年04期
9 宁永恒;杨小兵;王康健;;一种多聚类中心的划分方法[J];中国计量学院学报;2014年02期
10 高潮;田翠翠;郭永彩;;基于改进聚类中心分析法的红外行人分割[J];计算机工程;2011年06期
中国重要会议论文全文数据库 前1条
1 吴继兵;李心科;;基于K-最近邻居图划分的聚类中心初始化算法[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
中国硕士学位论文全文数据库 前3条
1 刘云;中文文本关键词提取和文本聚类中聚类中心点选取算法研究[D];江苏大学;2016年
2 徐祥;多中心聚类算法的研究与改进[D];安徽大学;2015年
3 邱荣太;基于Hadoop平台的Map-Reduce应用研究[D];河南理工大学;2009年
本文关键词:中文文本关键词提取和文本聚类中聚类中心点选取算法研究,,由笔耕文化传播整理发布。
本文编号:390795
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/390795.html