当前位置:主页 > 科技论文 > 软件论文 >

一种PST_LDA中文文本相似度计算方法

发布时间:2017-08-03 09:06

  本文关键词:一种PST_LDA中文文本相似度计算方法


  更多相关文章: 词性标注 LDA模型 PST_LDA模型 文本相似度计算


【摘要】:为了降低中文文本相似度计算方法的时间消耗、提高文本聚类的准确率,提出了一种PST_LDA(词性标注潜在狄利克雷模型)中文文本相似度计算方法。首先,对文本中的名词、动词和其他词进行词性标注;然后,分别对名词、动词和其他词建立相应的LDA主题模型;最后,按照一定的权重比例综合这三个主题模型,计算文本之间的相似度。由于考虑了不同词性的词集对文本相似度计算的贡献差异,利用文本的语义信息提高了文本聚类准确率。将分离后的三个词集的LDA建模过程并行化,减少建模的时间消耗,提高文本聚类速度。在TanCorp-12数据集分别用LDA和PST_LDA方法进行中文文本相似度计算模拟实验。实验结果显示,PST_LDA方法不仅减少了建模时间消耗,同时在聚类准确率上有一定的提高。
【作者单位】: 华中师范大学计算机学院;汉口学院计算机科学与技术学院;
【关键词】词性标注 LDA模型 PST_LDA模型 文本相似度计算
【分类号】:TP391.1
【正文快照】: 在中文信息处理中,文本相似度的计算广泛应用于信息检索、机器翻译、自动问答系统、文本挖掘等领域,它是一个基础而关键的问题,长期以来一直是人们研究的热点。李艳梅[1]将文本建模为词频向量,用余弦相似度量等方法计算文本相似度。该方法由于没有考虑文本中词项的语义信息,计

【参考文献】

中国期刊全文数据库 前2条

1 王李冬;魏宝刚;袁杰;;基于概率主题模型的文档聚类[J];电子学报;2012年11期

2 李琼;陈利;王维虎;;基于SVM的手写体数字快速识别方法研究[J];计算机技术与发展;2014年02期

中国博士学位论文全文数据库 前1条

1 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年

【共引文献】

中国期刊全文数据库 前10条

1 江雨燕;李平;王清;;基于共享背景主题的Labeled LDA模型[J];电子学报;2013年09期

2 丁宇新;燕泽权;冯威;薛成龙;周迪;;基于有监督主题模型的排序学习算法[J];电子学报;2015年02期

3 欧阳继红;刘燕辉;李熙铭;周晓堂;;基于LDA的多粒度主题情感混合模型[J];电子学报;2015年09期

4 杨明;舒明雷;顾卫东;郭强;周书旺;;基于超算平台的公共Wi-Fi无线网络无痕信息获取与舆情分析系统研究[J];计算机科学;2013年03期

5 王春龙;张敬旭;;基于LDA的改进K-means算法在文本聚类中的应用[J];计算机应用;2014年01期

6 张鹏;谢晓尧;;基于改进的C-支持向量机的手写体数字高识别率方法研究[J];贵州师范大学学报(自然科学版);2014年02期

7 崔君君;于林森;李鹏;;协同视觉信息与标注信息图像聚类[J];哈尔滨理工大学学报;2014年02期

8 邱云飞;郭弥纶;邵良杉;;基于主题树的微博突发话题检测[J];计算机应用;2014年08期

9 张万山;肖瑶;梁俊杰;余敦辉;;基于主题的Web文本聚类方法[J];计算机应用;2014年11期

10 仵博;冯延蓬;孟宪军;江建举;何国坤;;安防大数据下的分布式云计算模型[J];深圳职业技术学院学报;2014年01期

中国博士学位论文全文数据库 前5条

1 徐军;面向金融信息检索的体裁分类与情感分析技术研究[D];哈尔滨工业大学;2011年

2 郭鸿志;多源语义知识库融合方法研究[D];哈尔滨工业大学;2011年

3 陈晓美;网络评论观点知识发现研究[D];吉林大学;2014年

4 马力;基于聚类分析的网络用户兴趣挖掘方法研究[D];西安电子科技大学;2012年

5 肖智博;排序主题模型及其应用研究[D];大连海事大学;2014年

中国硕士学位论文全文数据库 前7条

1 徐德;关于互联网文本数据挖掘的一些关键技术研究[D];电子科技大学;2011年

2 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年

3 李超;基于Web的实例知识条目自动构建方法[D];哈尔滨工业大学;2010年

4 唐俊;复杂网络在网络新闻信息处理中的应用研究[D];西南交通大学;2012年

5 杨琳;基于社交网络的用户行为分析及预测[D];西安邮电大学;2013年

6 陈磊磊;面向智慧油田应用的数据分析系统的设计与实现[D];北京邮电大学;2015年

7 李靖;IPTV平台下新媒体用户行为挖掘分析系统的设计与实现[D];云南大学;2015年

【二级参考文献】

中国期刊全文数据库 前10条

1 董振东,董强;知网和汉语研究[J];当代语言学;2001年01期

2 刘铭;王晓龙;刘远超;;基于语义的高维数据聚类技术[J];电子学报;2009年05期

3 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期

4 刘挺,王开铸;基于篇章多级依存结构的自动文摘研究[J];计算机研究与发展;1999年04期

5 李蕾;王劲林;白鹤;胡晶晶;;基于FFT的网页正文提取算法研究与实现[J];计算机工程与应用;2007年30期

6 奉国和;;SVM分类核函数及参数选择比较[J];计算机工程与应用;2011年03期

7 陈圣兵;王晓峰;;基于样本差异度的SVM训练样本缩减算法[J];计算机工程与应用;2012年07期

8 刘端阳;邱卫杰;;基于SVM期望间隔的多标签分类的主动学习[J];计算机科学;2011年04期

9 曹娟;张勇东;李锦涛;唐胜;;一种基于密度的自适应最优LDA模型选择方法[J];计算机学报;2008年10期

10 于满泉,陈铁睿,许洪波;基于分块的网页信息解析器的研究与设计[J];计算机应用;2005年04期

中国博士学位论文全文数据库 前1条

1 姜维;统计中文词法分析及其强化学习机制的研究[D];哈尔滨工业大学;2007年

中国硕士学位论文全文数据库 前1条

1 王t熺,

本文编号:613526


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/613526.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f8194***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com