当前位置:主页 > 科技论文 > 搜索引擎论文 >

一种基于BTM主题模型的命名实体链接方法研究

发布时间:2019-01-02 18:36
【摘要】:随着网络资源的不断膨胀,信息的不断增多使得人们获取有价值的信息变得越来越困难。而Tweets、微博等短文本的发展和流行,使得人们更加无法从中获取更多感兴趣的内容,拓展命名实体条目的歧义问题成为研究的重点难点,命名实体链接技术是解决该问题的重要方法。命名实体链接是把文档中给定的命名实体链接到知识库中一个无歧义实体的过程,包括同义实体的合并、歧义实体的消歧等。该技术可以提升在线推荐系统、互联网搜索引擎等实际应用的信息过滤能力。本文针对短文本内容简短、语言随意不规范等特性,提出了一种基于BTM主题模型的命名实体链接方法。本文首先使用离线版维基百科来构建命名实体知识库,构建同义词表和歧义词表。本文使用基于规则和统计相结合的方法,识别短文本中的命名实体。由于短文本中出现的命名实体的多样性,根据知识库中的同义词表进行标准化,根据歧义词表获取候选命名实体集合并根据命名实体上下文特性进行剪枝,缩减候选实体集的大小,提高候选实体排序的效率。本文综合考虑词共同出现频率与单个出现频率的情况,改进了 MPM词共现度量只考虑共现频率而不考虑单个词出现频率情况,来计算词共现程度系数。其次,本文基于同一文档下词与命名实体具有相似的主题分布的假设,在语义层面对文档进行建模和实体消歧,提出了一种基于BTM主题模型的命名实体链接方法。该方法使用基于词共现程度系数的BTM模型来对命名实体语义建模,并使用了吉普斯采样的方法求解参数,这使得模型更加简单准确,为后续处理数据提供了理论基础。最后本文根据命名实体所在主题空间的位置向量与候选实体的余弦相似度,把给定文本中的命名实体链接到知识库中一个无歧义的命名实体。
[Abstract]:With the expansion of network resources, the increasing of information makes it more and more difficult for people to obtain valuable information. However, with the development and popularity of short texts such as Tweets, Weibo, people are unable to get more interesting content from them, and it becomes a key and difficult point to study the ambiguity of named entity items. Named entity linking is an important method to solve this problem. Named entity link is the process of linking a given named entity in a document to an unambiguous entity in the knowledge base, including the merging of synonymous entities, disambiguation of ambiguous entities, and so on. This technology can improve the information filtering ability of online recommendation system, Internet search engine and other practical applications. In this paper, a named entity linking method based on BTM subject model is proposed for short text, which is short in content and random in language. In this paper, we first use offline Wikipedia to construct named entity knowledge base, synonym table and ambiguous lexicon. This paper uses a rule-based and statistical approach to identify named entities in short text. Because of the diversity of named entities in short text, the synonyms in the knowledge base are standardized, the candidate named entity collections are obtained from ambiguous word tables and pruned according to the context characteristics of named entities. Reduce the size of candidate entity set and improve the efficiency of candidate entity sorting. In this paper, the co-occurrence frequency and the single occurrence frequency of words are considered synthetically, and the MPM word co-occurrence measure is improved to calculate the cooccurrence degree coefficient by only considering the co-occurrence frequency and not considering the occurrence frequency of a single word. Secondly, based on the assumption that the words in the same document have similar topic distribution with named entities, this paper models and disambiguates the documents at the semantic level, and proposes a named entity linking method based on BTM topic model. This method uses BTM model based on cooccurrence coefficient to model named entity semantics, and uses Gyibug sampling method to solve parameters, which makes the model more simple and accurate, and provides a theoretical basis for the subsequent data processing. Finally, according to the cosine similarity between the location vector of the named entity and the candidate entity, the named entity in the given text is linked to an unambiguous named entity in the knowledge base.
【学位授予单位】:大连海事大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【参考文献】

相关期刊论文 前10条

1 向宇;郭云龙;徐潇;曾维刚;李莉;;多策略中文微博实体词消歧及实体链接[J];计算机应用与软件;2016年08期

2 陈玉博;何世柱;刘康;赵军;吕学强;;融合多种特征的实体链接技术研究[J];中文信息学报;2016年04期

3 谭咏梅;王睿;李茂林;;基于上下文信息和排序学习的实体链接方法[J];北京邮电大学学报;2015年05期

4 杨光;刘秉权;刘铭;;基于图方法的命名实体消歧[J];智能计算机与应用;2015年05期

5 王庆;陈泽亚;郭静;陈晰;王晶华;;基于词共现矩阵的项目关键词词库和关键词语义网络[J];计算机应用;2015年06期

6 昝红英;吴泳钢;贾玉祥;牛桂玲;;基于多源知识的中文微博命名实体链接[J];山东大学学报(理学版);2015年07期

7 谭咏梅;杨雪;;结合实体链接与实体聚类的命名实体消歧[J];北京邮电大学学报;2014年05期

8 怀宝兴;宝腾飞;祝恒书;刘淇;;一种基于概率主题模型的命名实体链接方法[J];软件学报;2014年09期

9 魏强;金芝;许焱;;基于概率主题模型的物联网服务发现[J];软件学报;2014年08期

10 肖智博;车丰;吴镝;李庆丰;鲁明羽;;查询无关排序主题模型[J];模式识别与人工智能;2014年07期

相关博士学位论文 前1条

1 郭宇航;基于上下文的实体链指技术研究[D];哈尔滨工业大学;2014年

相关硕士学位论文 前5条

1 王睿;实体链接的研究与实现[D];北京邮电大学;2015年

2 薛昊原;领域文本资源实体链接算法研究[D];郑州大学;2015年

3 郭云龙;微博实体与百科条目链接的多策略研究[D];西南大学;2015年

4 杨雪;基于维基百科的命名实体消歧的研究与实现[D];北京邮电大学;2014年

5 官山山;中文微博实体链接方法研究[D];哈尔滨工业大学;2013年



本文编号:2398838

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2398838.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户875f4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com