当前位置:主页 > 科技论文 > 软件论文 >

融合词向量的多特征句子相似度计算方法研究

发布时间:2018-06-14 09:07

  本文选题:词向量 + 句子相似度 ; 参考:《计算机科学与探索》2017年04期


【摘要】:在归纳常见的句子相似度计算方法后,基于《人民日报》3.4万余份文本训练了用于语义相似度计算的词向量模型,并设计了一种融合词向量的多特征句子相似度计算方法。该方法在词方面,考虑了句子中重叠的词数和词的连续性,并运用词向量模型测量了非重叠词间的相似性;在结构方面,考虑了句子中重叠词的语序和两个句子的长度一致性。实验部分设计实现了4种句子相似度计算方法,并开发了相应的实验系统。结果表明:提出的算法能够取得相对较好的实验结果,对句子中词的语义特征和句子结构特征进行组合处理和优化,能够提升句子相似度计算的准确性。
[Abstract]:After summarizing common sentence similarity calculation methods, a word vector model for semantic similarity calculation is trained based on < People's Daily > 34000 texts, and a multi-feature sentence similarity calculation method combining word vectors is designed. In terms of words, the number of overlapping words and the continuity of words in a sentence are considered, and the similarity between non-overlapping words is measured by using word vector model. In the aspect of structure, the word order and the length consistency of two sentences are considered. In the experiment part, four kinds of sentence similarity calculation methods are designed and implemented, and the corresponding experimental system is developed. The results show that the proposed algorithm can obtain relatively good experimental results and can improve the accuracy of sentence similarity calculation by combining and optimizing the semantic features and sentence structure features of sentences.
【作者单位】: 中国人民解放军后勤科学研究所;北京航空航天大学计算机学院;昆明理工大学信息工程与自动化学院;
【基金】:国家自然科学基金No.61370126 国家高技术研究发展计划(863计划)No.2015AA016004 国家社会科学基金No.15GJ003-154 软件开发环境国家重点实验室探索性自主研究课题基金No.SKLSDE-2015ZX-16~~
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 蔡东风;白宇;于水;叶娜;任晓娜;;一种基于语境的词语相似度计算方法[J];中文信息学报;2010年03期

2 丁政建;张路;;一种改进的本体相似度计算方法[J];计算机工程;2010年24期

3 朱珍元;郑诚;;一种改进的本体相似度计算方法[J];微型机与应用;2011年01期

4 崔韬世;麦范金;;词语相似度计算方法分析[J];网络安全技术与应用;2012年05期

5 王国春;郑山红;赵辉;董亚则;;基于阶段递进的综合本体相似度计算方法[J];吉林大学学报(信息科学版);2014年02期

6 张忠平;田淑霞;刘洪强;;一种新的本体相似度计算方法[J];计算机应用研究;2008年10期

7 赵欢;李仁发;王家琴;张在美;;综合多层信息的本体概念相似度计算方法的研究[J];通信学报;2009年06期

8 李改;李章凤;李磊;;一种新的社会化相似度计算方法[J];计算机应用研究;2013年09期

9 曾辉;徐海洲;钟茂生;;基于主题和焦点的问句相似度计算方法[J];科学技术与工程;2014年06期

10 张忠平;田淑霞;刘洪强;;一种综合的本体相似度计算方法[J];计算机科学;2008年12期

相关会议论文 前8条

1 白宇;于水;叶娜;蔡东风;任晓娜;;一种基于语境的词语相似度计算方法[A];第五届全国信息检索学术会议论文集[C];2009年

2 乔林;黄维通;孟威;;一种改进的知网系统词语相似度计算方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

3 菅小艳;郑家恒;;一种改进的句子相似度计算方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

4 卢延科;尹宝生;张桂平;苗雪雷;白宇;;基于伪LCS的中文专利句子相似度计算方法[A];第五届全国信息检索学术会议论文集[C];2009年

5 章志凌;虞立群;罗海飞;邵晓敏;;基于改进Corpus库的词语相似度计算方法[A];第二十四届中国控制会议论文集(下册)[C];2005年

6 章成志;李斌;;基于混合策略的查询串相似度计算方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

7 陈希友;冯少荣;张东站;薛永生;;基于反馈的用户访问预测模型[A];第二十五届中国数据库学术会议论文集(一)[C];2008年

8 李天宁;肖桐;朱靖波;;科技论文的IPC自动标注[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

相关博士学位论文 前2条

1 蔡圆媛;基于知识整合的词汇语义相似度计算方法研究[D];北京交通大学;2016年

2 吴小坤;轻量级服务推荐算法研究[D];北京邮电大学;2015年

相关硕士学位论文 前10条

1 唐积益;推荐系统中相似度计算方法的研究[D];江苏科技大学;2015年

2 张广源;微博检索系统关键技术研究与实现[D];北京工业大学;2015年

3 尹路修;XML文档的聚类研究[D];湖南师范大学;2015年

4 邹能清;一种基于语义网络的中文文本相似度计算方法[D];湘潭大学;2015年

5 邬明强;基于分段融合的藏文文本相似度计算方法研究[D];西北民族大学;2016年

6 吕亚伟;食品安全网络舆情监测方法研究[D];北京化工大学;2016年

7 王璐;一种综合多层次信息的句子相似度计算方法研究[D];重庆大学;2016年

8 高鹏杨;基于多标签学习框架的微博文本分类研究[D];东南大学;2016年

9 万青云;并行LDA、聚类算法的研究及应用[D];南昌大学;2016年

10 陈欣;一种基于多属性本体的概念相似度计算方法的研究[D];东北师范大学;2010年



本文编号:2016847

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2016847.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e7e51***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com