基于向量空间的英文文本聚类方法研究

发布时间:2021-08-28 11:35
  计算机技术和互联网的快速发展加剧了文本数据的膨胀,给网页文本信息分类带来了很大的挑战。面对当今网络中海量文本数据的多样性,如何挖掘数据的潜在价值、搜索可用数据信息具有重大意义。本文研究内容是英文文本聚类,它与汉语文本有着很大的不同。前者,单词之间被空格或标点符号分割;后者,句子是由词连续组成。英文文本处理的首要步骤是分词、去停用词和词干提取等处理,保留有效特征词。但是,预处理后的文本依然无法进行聚类分析,需要采用结构化方法对非结构化文本数据进行处理。本文选用基于代数论的向量空间模型(Vector Space Model,VSM),将预处理文本转化为特征和权值集合的形式,通过特征权重计算方法,把文本特征集转化为向量形式。该模型简单灵活,并且能够得到计算机处理的数据形式。但是,该模型存在不足之处:集合中每个文本由大量特征构成,文本向量的稀疏性和维度过高,给文本相似度的计算带来很大困难;词之间的关系相互独立,给文本聚类造成不利影响。针对上述问题,本文的主要研究内容如下:(1)针对文本向量的高维性与稀疏性给相似度计算带来的困扰,本文提出改进相似度计算方法。该方法可以准确获取文本之间的相似度值,... 

【文章来源】:安徽大学安徽省 211工程院校

【文章页数】:74 页

【学位级别】:硕士

【图文】:

基于向量空间的英文文本聚类方法研究


图2.?1文本聚类整体流程??

曼哈顿距离,欧式距离,切比雪夫,距离计算


;=?[E1|^i-^|]P2.10示曼哈顿距离;p=2时表示的是欧式距离,并且二者要满足以下性质:??2?0,值不为负数;??Dis(d,,d;)?=?0,本身之间距离为0;??DZs(d,,d;)?=?Disked,);??式:+?满足三角不等式。??比雪夫距离(Chebyshev?Distance)??为确界距离,是根据国际象棋里国王步数衍化而来。公式表示如下:??1??Dis{ditdj)?=?lim?(^J=1?\xf?-?y/|/!)"?=?max?\xf?-?yf\?(2.?11)??理解三种距离公式的计算方式,利用图示方法演示,如图2.2所示:??4?u??

示意图,示意图,文本对象,步战


二个情况是把每个文本对象看成一个族。然后,族与族之间在基于相似度计算的??情况下不断迭代,将每个文本对象相似度高的划分到对应簇中,是一种自底而上??的凝聚式聚类。如图2.4凝聚与分裂层次聚类方法简单表示:??步?〇?步骤1?步辗2?步铒3?步猓4??J?1?1?1?1_□??瞢?H??W?、S??#?#?/????X.????g暑?#??圓?^?^?^?I?|??步战4?步碟3?步通2?步通1?步通0??图2.?4凝聚与分裂层次聚类方法示意图??Fig2.4?Schematic?diagram?of?cohesion?and?fragmentation?hierarchical?clustering??17??

【参考文献】:
期刊论文
[1]Identification of activity stop locations in GPS trajectories by density-based clustering method combined with support vector machines[J]. Lei Gong,Hitomi Sato,Toshiyuki Yamamoto,Tomio Miwa,Takayuki Morikawa.  Journal of Modern Transportation. 2015(03)
[2]概念整合理论框架下的《静夜思》意义建构——基于ICTCLAS的分析方法[J]. 张晴,李玉影.  唐山师范学院学报. 2015(01)



本文编号:3368439

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3368439.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a1d70***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com