当前位置:主页 > 科技论文 > 软件论文 >

基于词条与语意差异度量的文档聚类算法

发布时间:2017-11-05 00:09

  本文关键词:基于词条与语意差异度量的文档聚类算法


  更多相关文章: 文档聚类 语意分析 贪婪算法 收敛性 可解释性


【摘要】:已有的文本聚类算法大多基于一般的相似性度量而忽略了语义内容,对此提出一种基于最大化文本判别信息的文本聚类算法。首先,分别分析词条对其类簇与其他类簇的判别信息,并且将数据集从输入空间转换至差异分数矩阵空间;然后,设计了一个贪婪算法来筛选矩阵每行的低分数词条;最终,采用最大似然估计对文本差别信息进行平滑处理。仿真实验结果表明,所提方法的文档聚类质量优于其他分层与单层聚类算法,并且具有较好的可解释性与收敛性。
【作者单位】: 甘肃农业大学信息科学技术学院;南京理工大学计算机科学与工程学院;南京大学信息管理学院;
【基金】:国家自然科学基金项目(034031122,61063028) 江苏省自然科学基金青年基金(BK20150784) 中国博士后面上资助(2015M581800) 甘肃省科技支撑计划项目(1604WKCA011) 陇原青年创新创业人才项目(2016-47)资助
【分类号】:TP391.1
【正文快照】: 到稿日期:2016-03-03返修日期:2016-03-23本文受国家自然科学基金项目(034031122,61063028),江苏省自然科学基金青年基金(BK20150784),中国博士后面上资助(2015M581800),甘肃省科技支撑计划项目(1604WKCA011),陇原青年创新创业人才项目(2016-47)资助。1引言随着互联网的蓬勃发

【相似文献】

中国期刊全文数据库 前10条

1 刘远超;王晓龙;徐志明;关毅;;文档聚类综述[J];中文信息学报;2006年03期

2 王李冬;魏宝刚;袁杰;;基于概率主题模型的文档聚类[J];电子学报;2012年11期

3 王升明,李淼;一种基于改进的自组织特征映射网络的文档聚类方法[J];计算机工程与应用;2005年03期

4 孙永林;刘仲;;基于动态区间映射的文档聚类算法[J];计算机科学;2010年06期

5 孙霞;张玉生;;基于模式元素的文档聚类方法研究[J];常熟理工学院学报;2012年08期

6 宋江春,沈钧毅,宋擒豹;一个基于关联规则的多层文档聚类算法[J];计算机应用;2005年07期

7 赵卫中;马慧芳;李志清;史忠植;;一种结合主动学习的半监督文档聚类算法[J];软件学报;2012年06期

8 吴景岚,刘燕,朱文兴;一个K-均值文档聚类的改进算法[J];闽江学院学报;2004年02期

9 徐建民;成岳鹏;辛丽军;;一种基于术语簇和关联规则的文档聚类方法[J];计算机工程与应用;2007年05期

10 陶惠;张妍;郝光权;;基于向量空间的文档聚类算法分析[J];电脑知识与技术;2011年20期

中国重要会议论文全文数据库 前9条

1 唐国瑜;夏云庆;张民;郑方;;基于跨语言广义向量空间模型的跨语言文档聚类方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

2 周水庚;孙敬宇;胡运发;;一种文档聚类新方法[A];第十六届全国数据库学术会议论文集[C];1999年

3 刘众奇;袁晓洁;张海威;杨娜;王敏辉;;阈值区间:一种基于XCLS和XCLSE的改进方案[A];第二十五届中国数据库学术会议论文集(二)[C];2008年

4 原福永;杨治秋;王海霞;;一种基于向量空间模型的文档聚类算法研究[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年

5 王晓宇;钱卫宁;张龙;周傲英;;XML DTD文档聚类研究[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年

6 伍赛;杨冬青;韩近强;张铭;王文清;冯英;;WCM:一种基于单词相关度的文档聚类新方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

7 李文波;孙乐;;在查询反馈中改善文档聚类效果的策略研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

8 刘振鹿;王大玲;冯时;张一飞;方东昊;;一种基于LDA的潜在语义区划分及Web文档聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年

9 汪洋;张磊;章毅;;基于短语匹配的中文Web文档聚类算法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

中国博士学位论文全文数据库 前5条

1 杨剑锋;适合并行的无干预文档聚类算法研究[D];武汉大学;2010年

2 刘铭;大规模文档聚类中若干关键问题的研究[D];哈尔滨工业大学;2010年

3 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年

4 丁铁楠;XML文档聚类及其评估问题研究[D];吉林大学;2015年

5 周,

本文编号:1141728


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1141728.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户40c97***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com