基于语义相似度的文本聚类研究
本文关键词:基于语义相似度的文本聚类研究
更多相关文章: 同义词词林扩展版 语义相似度 谱聚类 文本挖掘
【摘要】:【目的】为解决传统的文本聚类无法充分挖掘文本资源语义信息以及相似度矩阵高维性、稀疏性等问题,并进一步改善文本聚类质量,提出基于语义相似度的文本聚类方法。【方法】通过《同义词词林扩展版》计算词语的语义相似度并得到文本语义相似度矩阵,根据文本语义相似度矩阵进行谱聚类,将文本聚集为文本簇。【结果】利用复旦大学文本语料库与搜狗文本语料库中的文本资源作为数据来源分别对传统聚类算法与本文提出的算法进行实验,结果表明,当聚类个数为10时,本文算法的准确率最高,并且Purity值高于传统聚类算法的Purity值。【局限】《同义词词林扩展版》中包含的领域术语不完整,部分相似度计算结果需要手工进行调整。【结论】该方法考虑了词语间语义关系,充分挖掘文本主体潜在信息,并且改善了聚类质量,为文本聚类和推荐提供了一条新途径。
【作者单位】: 吉林大学管理学院;内蒙古大学图书馆;
【基金】:国家自然科学基金项目“语义网络环境下数字图书馆资源多维度聚合与可视化展示研究”(项目编号:71273111)的研究成果之一
【分类号】:TP391.1
【正文快照】: 1引言Web2.0时代,文本数据呈现爆炸式增长[1]。文本聚类作为一种无监督的机器学习方法,可以对文本信息进行有效的组织、分类和导航[2],从而保证用户对知识进行有效、便捷的获取。然而,文本聚类过程中,采用向量空间模型计算文本间相似度的方法受共现特征词影响较大[3],易造成描
【相似文献】
中国期刊全文数据库 前10条
1 胡艳波;崔新春;路青;;2002~2011年国内语义相似度研究计量分析[J];情报科学;2013年07期
2 王家琴;李仁发;李仲生;唐剑波;;一种基于本体的概念语义相似度方法的研究[J];计算机工程;2007年11期
3 刘俊;;基于语义相似度的关键词生成在企业搜索引擎营销中应用[J];电脑知识与技术;2008年14期
4 宗裕朋;吴刚;;一种基于上下文的语义相似度算法[J];微计算机信息;2008年30期
5 刘春辰;刘大有;王生生;赵静滨;王兆丹;;改进的语义相似度计算模型及应用[J];吉林大学学报(工学版);2009年01期
6 徐猛;刘宗田;周文;;一种基于知网语义相似度计算的应用研究[J];微计算机信息;2010年03期
7 孙海霞;钱庆;成颖;;基于本体的语义相似度计算方法研究综述[J];现代图书情报技术;2010年01期
8 魏椺;向阳;陈千;;计算术语间语义相似度的混合方法[J];计算机应用;2010年06期
9 马续补;郭菊娥;;基于《知网》语义相似度的企业事实主题诊断研究[J];情报杂志;2010年05期
10 魏凯斌;冉延平;余牛;;语义相似度的计算方法研究与分析[J];计算机技术与发展;2010年07期
中国重要会议论文全文数据库 前10条
1 关毅;王晓龙;;基于统计的汉语词汇间语义相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 李月雷;师瑞峰;林丽冰;周一民;;汉语语句语义相似度的计算方法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
3 冯新元;魏建国;路文焕;党建武;;引入领域知识的基于《知网》词语语义相似度计算[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年
4 章成志;;词语的语义相似度计算及其应用研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
5 刘寒磊;关毅;徐永东;;多文档文摘中基于语义相似度的最大边缘相关技术研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 石静;邱立坤;王菲;吴云芳;;相似词获取的集成方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 陈明;鹿e,
本文编号:1251991
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1251991.html