一种基于大规模知识库的语义相似性计算方法
本文选题:大规模知识库 切入点:语义相似性 出处:《计算机研究与发展》2017年11期
【摘要】:人类知识总量不断增加,依靠人类产生的结构化大数据进行语义分析在推荐系统和信息检索等领域都有着重要的应用.在这些领域中,首要解决的问题是语义相似性计算,之前的研究通过运用以维基百科为代表的大规模知识库取得了一定突破,但是其中的路径并没有被充分利用.研究基于人类思考方式的双向最短路径算法进行单词和文本的相似性评估,以充分利用知识库中的路径信息.提出的算法通过在维基百科中抽取出颗粒度比词条更细密的节点之间的超链接关系,并首次验证了维基百科之间的普遍连通性,并对2个词条之间的平均最短路径长度进行评估.最后,在公开数据集上进行的实验结果显示,算法在单词相似度得分上明显优于现有算法,在文本相似度的得分上趋于先进水平.
[Abstract]:The amount of human knowledge is increasing constantly, and it has important applications in the fields of recommendation system and information retrieval to carry out semantic analysis based on the structural big data produced by human beings.In these fields, the most important problem is semantic similarity calculation. Previous research has made a breakthrough by using the large-scale knowledge base represented by Wikipedia, but the path has not been fully utilized.A bidirectional shortest path algorithm based on human thinking is studied to evaluate the similarity of words and texts in order to make full use of the path information in the knowledge base.The proposed algorithm extracts hyperlinks between nodes with finer granularity than entries in Wikipedia, and for the first time verifies the universal connectivity between Wikipedia.The average shortest path length between two entries is evaluated.Finally, the experimental results on the open datasets show that the algorithm is superior to the existing algorithms in word similarity score, and tends to the advanced level in the text similarity score.
【作者单位】: 中国科学院软件研究所;中国科学院大学;
【基金】:中国科学院系统优化基金项目(Y42901VED2,Y42901VEB1,Y42901VEB2)~~
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 于嘉;网络时代的百科全书——维基百科[J];图书馆论坛;2005年04期
2 尹开国;;自由人的自由联合:维基百科评介[J];图书情报工作;2007年02期
3 徐争荣;;构建电影专业维基百科的设想[J];图书情报工作;2009年S1期
4 何筠红;;在线共享的自由百科全书——维基百科[J];新世纪图书馆;2006年04期
5 金姬;;危机笼罩维基[J];新民周刊;2013年47期
6 王兰成;刘晓亮;;维基百科知网的构建研究与应用进展[J];情报资料工作;2012年05期
7 寿思聪;姚从磊;李晓明;;发现维基百科文章相关图片[J];计算机科学与探索;2011年07期
8 张海粟;马大明;邓智龙;;基于维基百科的语义知识库及其构建方法研究[J];计算机应用研究;2011年08期
9 金姬;;网络乌托邦之路[J];新民周刊;2013年47期
10 徐蔓;;谁在撼动维基百科[J];互联网周刊;2008年01期
相关会议论文 前4条
1 孟新萍;王会珍;张俐;;维基百科人物属性自动获取方法研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
2 张苇如;孙乐;韩先培;;基于维基百科和模式聚类的实体关系抽取方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 谢科;刘奕群;岑荣伟;马少平;茹立云;杨磊;;基于维基百科层次分类框架的主题推荐系统的研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 温粉莲;唐常杰;乔少杰;许刚;刘威;左R,
本文编号:1686854
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1686854.html