一种中文文本聚类方法的研究.pdf 全文 文档投稿网
本文关键词:一种中文文本聚类方法的研究,由笔耕文化传播整理发布。
密级:??
编号:??
工学硕士学位论文
一种中文文本聚类方法的研究
硕士研究生
:张丽
指导教师
:刘杰教授
学位级别 :工学硕士
学科、专业
:计算机应用技术
所在单位
:计算机科学与技术学院
论文提交日期:年月日
论文答辩日期:年月日
学位授予单位:哈尔滨工程大学哈尔滨工程大学硕士学位论文
摘 要
世纪年代以来,随着信息技术和数据库技术的迅猛发展,人们可
以非常方便地获取和存储大量数据。数据大多以文本形式存在。如何从大规
模的文本中快速获取所需要的信息呢文本挖掘就是加工和处理这些文本,
从而为人类提供更多的信息。作为文本挖掘的重要分支,文本聚类技术的研
究有着重要的意义。
本文主要是针对文本聚类中的经典算法.算法给出两点改进,使
算法能够适合大规模文本聚类。首先,本文针对.算法中初
始点的选择问题进行深入的研究,同时指出:初始点的选择对.算法
的影响较大。本文结合文本矩阵的特点,给出一种应用算法来改进初
始点选择的算法,通过去掉增长较慢的样本点和小类的方式,减少孤立点对
聚类中心形成的影响。其次,对文本聚类中的特征选择也给出改进算法。改
进后的算法将动态和局部思想引入了算法。在聚类开始时,保
留更多的文本信息?特征词语。在迭代过程中,利用算法选出能标明
具体类的特征词语,从而动态地利用这些特征词语进行聚类,加速迭代的收
敛。改进后的算法在一定程度上提高了.算法的精度。
最后,本文通过实验对改进后的算法进行验证,并对实验结果进行分析,
说明了算法的优点和不足。
关键词:文本聚类;算法:算法:主成分分析哈尔滨工程大学硕士学位论文. .
“. 、, Ⅱ
.,.?
. .
?
,
,
.
. ,
.,
. . .
,
, . . ,
,.,
;
: ; ;哈尔滨工程大学
学位论文原创性声明
本人
本文关键词:一种中文文本聚类方法的研究,,由笔耕文化传播整理发布。
本文编号:147605
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/147605.html