一种PST_LDA中文文本相似度计算方法
本文关键词:一种PST_LDA中文文本相似度计算方法
更多相关文章: 词性标注 LDA模型 PST_LDA模型 文本相似度计算
【摘要】:为了降低中文文本相似度计算方法的时间消耗、提高文本聚类的准确率,提出了一种PST_LDA(词性标注潜在狄利克雷模型)中文文本相似度计算方法。首先,对文本中的名词、动词和其他词进行词性标注;然后,分别对名词、动词和其他词建立相应的LDA主题模型;最后,按照一定的权重比例综合这三个主题模型,计算文本之间的相似度。由于考虑了不同词性的词集对文本相似度计算的贡献差异,利用文本的语义信息提高了文本聚类准确率。将分离后的三个词集的LDA建模过程并行化,减少建模的时间消耗,提高文本聚类速度。在TanCorp-12数据集分别用LDA和PST_LDA方法进行中文文本相似度计算模拟实验。实验结果显示,PST_LDA方法不仅减少了建模时间消耗,同时在聚类准确率上有一定的提高。
【作者单位】: 华中师范大学计算机学院;汉口学院计算机科学与技术学院;
【关键词】: 词性标注 LDA模型 PST_LDA模型 文本相似度计算
【分类号】:TP391.1
【正文快照】: 在中文信息处理中,文本相似度的计算广泛应用于信息检索、机器翻译、自动问答系统、文本挖掘等领域,它是一个基础而关键的问题,长期以来一直是人们研究的热点。李艳梅[1]将文本建模为词频向量,用余弦相似度量等方法计算文本相似度。该方法由于没有考虑文本中词项的语义信息,计
【参考文献】
中国期刊全文数据库 前2条
1 王李冬;魏宝刚;袁杰;;基于概率主题模型的文档聚类[J];电子学报;2012年11期
2 李琼;陈利;王维虎;;基于SVM的手写体数字快速识别方法研究[J];计算机技术与发展;2014年02期
中国博士学位论文全文数据库 前1条
1 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 江雨燕;李平;王清;;基于共享背景主题的Labeled LDA模型[J];电子学报;2013年09期
2 丁宇新;燕泽权;冯威;薛成龙;周迪;;基于有监督主题模型的排序学习算法[J];电子学报;2015年02期
3 欧阳继红;刘燕辉;李熙铭;周晓堂;;基于LDA的多粒度主题情感混合模型[J];电子学报;2015年09期
4 杨明;舒明雷;顾卫东;郭强;周书旺;;基于超算平台的公共Wi-Fi无线网络无痕信息获取与舆情分析系统研究[J];计算机科学;2013年03期
5 王春龙;张敬旭;;基于LDA的改进K-means算法在文本聚类中的应用[J];计算机应用;2014年01期
6 张鹏;谢晓尧;;基于改进的C-支持向量机的手写体数字高识别率方法研究[J];贵州师范大学学报(自然科学版);2014年02期
7 崔君君;于林森;李鹏;;协同视觉信息与标注信息图像聚类[J];哈尔滨理工大学学报;2014年02期
8 邱云飞;郭弥纶;邵良杉;;基于主题树的微博突发话题检测[J];计算机应用;2014年08期
9 张万山;肖瑶;梁俊杰;余敦辉;;基于主题的Web文本聚类方法[J];计算机应用;2014年11期
10 仵博;冯延蓬;孟宪军;江建举;何国坤;;安防大数据下的分布式云计算模型[J];深圳职业技术学院学报;2014年01期
中国博士学位论文全文数据库 前5条
1 徐军;面向金融信息检索的体裁分类与情感分析技术研究[D];哈尔滨工业大学;2011年
2 郭鸿志;多源语义知识库融合方法研究[D];哈尔滨工业大学;2011年
3 陈晓美;网络评论观点知识发现研究[D];吉林大学;2014年
4 马力;基于聚类分析的网络用户兴趣挖掘方法研究[D];西安电子科技大学;2012年
5 肖智博;排序主题模型及其应用研究[D];大连海事大学;2014年
中国硕士学位论文全文数据库 前7条
1 徐德;关于互联网文本数据挖掘的一些关键技术研究[D];电子科技大学;2011年
2 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
3 李超;基于Web的实例知识条目自动构建方法[D];哈尔滨工业大学;2010年
4 唐俊;复杂网络在网络新闻信息处理中的应用研究[D];西南交通大学;2012年
5 杨琳;基于社交网络的用户行为分析及预测[D];西安邮电大学;2013年
6 陈磊磊;面向智慧油田应用的数据分析系统的设计与实现[D];北京邮电大学;2015年
7 李靖;IPTV平台下新媒体用户行为挖掘分析系统的设计与实现[D];云南大学;2015年
【二级参考文献】
中国期刊全文数据库 前10条
1 董振东,董强;知网和汉语研究[J];当代语言学;2001年01期
2 刘铭;王晓龙;刘远超;;基于语义的高维数据聚类技术[J];电子学报;2009年05期
3 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
4 刘挺,王开铸;基于篇章多级依存结构的自动文摘研究[J];计算机研究与发展;1999年04期
5 李蕾;王劲林;白鹤;胡晶晶;;基于FFT的网页正文提取算法研究与实现[J];计算机工程与应用;2007年30期
6 奉国和;;SVM分类核函数及参数选择比较[J];计算机工程与应用;2011年03期
7 陈圣兵;王晓峰;;基于样本差异度的SVM训练样本缩减算法[J];计算机工程与应用;2012年07期
8 刘端阳;邱卫杰;;基于SVM期望间隔的多标签分类的主动学习[J];计算机科学;2011年04期
9 曹娟;张勇东;李锦涛;唐胜;;一种基于密度的自适应最优LDA模型选择方法[J];计算机学报;2008年10期
10 于满泉,陈铁睿,许洪波;基于分块的网页信息解析器的研究与设计[J];计算机应用;2005年04期
中国博士学位论文全文数据库 前1条
1 姜维;统计中文词法分析及其强化学习机制的研究[D];哈尔滨工业大学;2007年
中国硕士学位论文全文数据库 前1条
1 王t熺,
本文编号:613526
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/613526.html