基于语义耦合的短文本相似度计算研究

发布时间:2021-06-15 10:58
  随着互联网技术飞速发展和网络信息爆炸式增长,社交工具智能化和便携化,导致大量信息以短文本形式出现。例如微博评论、手机短信、聊天软件和自动问答系统。短文本相似度的计算对于挖掘和处理超大规模短文本数据有着不可或缺的作用,被大量用于文本分类、文本聚类、信息检索和微博用户推荐等多个领域,而算法的优劣决定着这些应用的性能。短文本相似度计算是一个复杂,多技术交叉的问题,会受诸多条件影响,例如文本表示,词项加权策略,语义关系建模和相似度算法等。通过分析传统的短文本相似度算法的缺陷,本文设计了基于距离的词项关联权重计算方法,并改进了词项间内联和外联关系,结合内外联关系得到耦合关系来建模词项间更加复杂的语义关系。此外考虑到词项强类别特征对于文章的区分性和指示性,设计了相对应的强类别特征相似度计算方法。最后综合词项耦合语义信息和强类别特征,构建了一种更加全面和合理的相似度计算方法。论文的主要工作总结如下:(1)设计了基于耦合关系的短文本相似度算法。首先考虑词项共现信息和词项间距离得到共现相关度,并以此计算词项的关联权重,然后利用词项的关联权重计算词项内联关系和外联关系。其中内联关系由词项的关联权重和广义J... 

【文章来源】:西北师范大学甘肃省

【文章页数】:44 页

【学位级别】:硕士

【部分图文】:

基于语义耦合的短文本相似度计算研究


图1-1论文整体框架图??论文结构如图1-1所示

基于语义耦合的短文本相似度计算研究


图3-1?^改变在不同数据集上对聚类性能的影响??3.4.2.2算法性能对比??a二0.5

基于语义耦合的短文本相似度计算研究


图3-2四种短文本相似度方法性能对比??

【参考文献】:
期刊论文
[1]融合词语共现距离和类别信息的短文本特征提取方法[J]. 马慧芳,邢玉莹,王双,张旭鹏.  计算机工程与科学. 2018(09)
[2]融合共现距离和区分度的短文本相似度计算方法[J]. 刘文,马慧芳,脱婷,陈海波.  计算机工程与科学. 2018(07)
[3]一种多特征融合的场景分类方法[J]. 李志欣,李艳红,张灿龙.  小型微型计算机系统. 2018(05)
[4]一种基于频繁词集表示的新文本聚类方法[J]. 张雪松,贾彩燕.  计算机研究与发展. 2018(01)
[5]融合词语类别特征和语义的短文本分类方法[J]. 马慧芳,周汝南,吉余岗,鲁小勇.  计算机工程与科学. 2017(02)
[6]基于强类别特征近邻传播的半监督文本聚类[J]. 文翰,肖南峰.  模式识别与人工智能. 2014(07)
[7]基于概率主题模型的文档聚类[J]. 王李冬,魏宝刚,袁杰.  电子学报. 2012(11)
[8]基于加权语义网的文本相似度计算的研究[J]. 廖开际,杨彬彬.  情报杂志. 2012(07)
[9]一种基于WordNet的短文本语义相似性算法[J]. 翟延冬,王康平,张东娜,黄岚,周春光.  电子学报. 2012(03)

硕士论文
[1]文本表示模型和特征选择算法研究[D]. 陈磊.中国科学技术大学 2017



本文编号:3230930

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3230930.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bb59b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com