当前位置:主页 > 科技论文 > 软件论文 >

基于维基百科的实体链接算法研究及系统实现

发布时间:2018-10-14 16:41
【摘要】:互联网进入信息爆炸时代,信息数量巨大,表现形式多样,信息复杂。如何从大量信息中准确获取到用户所需要的信息,是亟待解决的问题。然而,自然语言中广泛存在着歧义性问题,实体歧义就是指同一个实体指称在不同上下文环境中对应不同真实世界实体的语言现象,消除实体的歧义性能够帮助更好理解文本信息,而实体链接就是将网页、微博或者对话中的人名、地名和机构名正确地链接到知识库中的相应实体上,主要解决同义词和一词多义的实体消歧问题,对于信息检索、自动问答和完备知识库具有重要意义。本文针对实体链接中的核心问题,实体指称的候选实体排名进行了研究,论文的主要工作和创新点归纳如下:1.提出了融合LDA和重启随机游走的候选实体排名算法以及融合Word2Vec和PageRank的候选实体排名算法,有效提升了实体链接的准确性。传统的候选实体排名算法往往停留在特征抽取的阶段,需要提取大量特征,然后通过监督学习的方法训练,非常繁琐,其特征也往往是一些浅层特征,比如字符串的相似性,忽略了实体之间的语义相似性,针对以上问题,本文利用实体维基百科中的链接结构,同时考虑到同一主题下的实体会链接到一起,语义上更相关的实体也会链接到一起,针对此观点,本文提出了融合LDA和重启随机游走的候选实体排名算法以及融合Word2Vec和PageRank的候选实体排名算法,两个算法都利用了实体所在维基百科的图结构,其中重启随机游走最终得到的是每个候选实体的向量,而PageRank最终得到每个候选实体的PR值,前者融入了实体关于主题的特征向量,后者融入了实体和实体之间语义相似度,两者都在图模型的基础上加入了语义特征,通过实验验证,相对于主流的候选实体排名算法,提高了实体链接的准确率。2.结合两种候选实体排名算法,开发了实体链接系统LEL,该系统能够将文本中的实体链接到维基百科知识库,具有很强的交互性。
[Abstract]:The Internet enters the information explosion age, the information quantity is huge, the manifestation is diverse, the information is complex. How to get the information that users need from a large amount of information is an urgent problem to be solved. However, there is widespread ambiguity in natural languages. Entity ambiguity refers to the linguistic phenomenon in which the same entity refers to different real world entities in different contexts. Disambiguation of entities can help to better understand text information, and entity links are the right links to the corresponding entities in the knowledge base by linking pages, Weibo or the names of people, places and institutions in the dialogue. To solve the problem of entity disambiguation of synonym and polysemy, it is of great significance for information retrieval, automatic question and answer and complete knowledge base. Aiming at the core problem of entity link, the candidate entity ranking of entity reference is studied in this paper. The main work and innovation of this paper are summarized as follows: 1. A candidate entity ranking algorithm combining LDA and restarting random walk and a candidate entity ranking algorithm combining Word2Vec and PageRank are proposed to effectively improve the accuracy of entity link. The traditional candidate entity ranking algorithm often stays at the stage of feature extraction, and needs to extract a large number of features, and then training by supervised learning is very cumbersome, and its features are often some shallow features, such as the similarity of strings. Ignoring the semantic similarity between entities, this paper uses the link structure in entity Wikipedia, considering that entities under the same subject will link together, and entities that are more semantically relevant will be linked together. In order to solve this problem, this paper proposes a candidate entity ranking algorithm that combines LDA and reboot random walk, and a candidate entity ranking algorithm that combines Word2Vec and PageRank. Both algorithms utilize the graph structure of Wikipedia where the entity is located. The reboot random walk results in the vector of each candidate entity, and the PR value of each candidate entity is obtained by PageRank. The former incorporates the feature vector of the entity on the subject, and the latter integrates the semantic similarity between the entity and the entity. Both of them add semantic features to the graph model. The experimental results show that compared with the mainstream candidate entity ranking algorithm, the accuracy of entity link is improved. 2. Combined with two candidate entity ranking algorithms, an entity link system (LEL,) is developed. The system can link the entities in the text to the Wikipedia knowledge base and has strong interaction.
【学位授予单位】:华东师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 陈斌;;结构化实体图——E-R方法的增强[J];计算机科学;1986年06期

2 庞正刚;;在Auto CAD中绘制相交线的新方法[J];重庆工贸职业技术学院学报;2006年02期

3 李灶福,李晓兰,邓小红,包晨阳;关于Auto CAD中将三维实体图转换成平面三视图的探讨[J];机床与液压;2003年03期

4 荣英;谭国萍;;CAD快速绘制组合体三维实体图的方法和技巧[J];九江学院学报(自然科学版);2013年03期

5 J Miguel Gerlso;张勤勇;;TM——一适合CAD和所要求的数据库功能的面向实体语言[J];国外导弹与航天运载器;1989年08期

6 焦泉忠;;NX5实体图与CAXA2007工程图转换[J];金属加工(冷加工);2013年02期

7 范力军;图形变量化的实现技术[J];工程设计CAD与智能建筑;1999年11期

8 王斌;;CAD三维实体解决复杂形体看图问题[J];实验室科学;2007年03期

9 杨长青;;AutoCAD三维实体教学体会[J];科技信息;2010年32期

10 徐景辉;苑伟政;常洪龙;谢建兵;;一种新型三维实体到标准工艺版图的转换方法[J];传感技术学报;2006年05期

相关博士学位论文 前1条

1 吴建华;矢量空间数据实体匹配方法与应用研究[D];武汉大学;2008年

相关硕士学位论文 前5条

1 薛昊原;领域文本资源实体链接算法研究[D];郑州大学;2015年

2 朱灿;实体解析技术研究与应用[D];上海交通大学;2015年

3 罗念;基于维基百科的实体链接算法研究及系统实现[D];华东师范大学;2016年

4 何峰权;基于属性模式的实体识别框架[D];哈尔滨工业大学;2013年

5 王玮;从可比语料中抽取等价实体翻译对的研究[D];哈尔滨工业大学;2014年



本文编号:2271020

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2271020.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4c40e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com