当前位置:主页 > 科技论文 > 软件论文 >

基于排序学习的知识库引文推荐

发布时间:2020-02-26 14:14
【摘要】:知识库引文推荐是指针对知识库内的实体,将与其相关的文档进行自动的筛选与推荐。随着知识库在各个领域的广泛应用,知识库引文推荐逐渐成为当前的研究热点,例如文本检索会议(TextRetrieval Conference,TREC)中的 KBA(Knowledge Base Acceleration)评测中就有针对引文推荐的任务CCR(Cumulative Citation Recommendation),本文研究的课题也是基于该任务。当前对知识库引文推荐的研究,主要集中在将其建模为排序学习的检索模型。通过对比不同引文推荐常用模型,本文提出了基于排序学习的引文推荐方法,在此基础上将知识库引文推荐归结为三个关键问题:针对知识库某一实体名的查询扩展、针对文档和实体的特征提取、以及判断文档与实体相关性的预测模型的选择。本文的主要研究内容和阶段成果如下:1.提出了基于语义词典与词向量(wordembedding)相结合的实体查询扩展算法。首先,通过利用DBpedia中的属性特征实现基于语义词典的实体查询扩展算法;其次,分别利用WAF和word2vec算法实现基于词向量的实体查询扩展算法;最后将两种算法结合起来,获得最终的实体扩展结果。2.提取出本领域不常使用的语义特征、句法特征和时间特征,用以实现后续的相似性判断。采用LDA和ESA算法来构建语义特征,用以解决一词多义问题。此外,本文发现句法特征和时间特征在知识库引文推荐中同样非常有效。3.在上述基础上,采用point-wise、pair-wise和list-wise三种排序学习的方法,实现实体与文档的相关性判断。实验证明,该方法比常用的知识库引文推荐算法更有效。4.提出了线性模型将逻辑回归与随机森林分类器组合起来,完成排序学习算法,并最终实现相关性的判断。实验证明该方法比通用的排序学习更能有效解决知识库引文推荐问题。5.设计并实现了完整的知识库引文推荐系统。该系统在TREC KBA2014评测数据上的实验结果与基线系统相比,F1值平均提升了19.8%。表明本文设计的算法能够较好的解决引文推荐问题,且具有可行性。
【图文】:

分布情况,图模型,文档


逦逦逡逑LDA是一个多层的生成式全概率生成模型,是对文本的语义特征建模方法,逡逑如下图所示。LDA算法中包含词、主题(语义)及文档三个概念。LDA的建模逡逑过程如下:给定一个文档集合,LDA将每个文档都建模为一个主题的分布,每逡逑个主题建模为一个多项式分布来表示该主题生成词的概率。在LDA模型中,这逡逑些主题在所有文档中都存在而区分每个文档的是:不同文档有着一个特定的分布。逡逑LDA的模型包括参数(cc,邋P),a表示每个主题(即隐含语义)在整个文档集中的逡逑重要性大小,p表示所有主题的分布情况。z表示文档在每个词上的主题的权重,逡逑0代表文档中各个主题在文档中的比重,W为文档集中文档的总数,w是文档的逡逑词表示,/Vd表示该文档的总词数。逡逑相较于LSA或PLSA等模型,LDA有很明显的优势和好处:首先LDA模逡逑型是全概率生成模型,,故有着更清晰的结构且有较深厚的理论基础;同时,LDA逡逑模型的大小与训练样本数无关,因此对于数据量大的文本语料,有天生的优势。逡逑随着LDA模型、LDA的演进模型在自然语言处理中的应用,他们的价值逐渐得逡逑到重视并得到了很深入的研究,但在引文推荐领域还没有人对其进行应用。逡逑

算法模型,输入层,输出层,三层


逦第三章基于语义词典与词向量的查询扩展逦逡逑的索引。但这种向量有些缺点:一是词典中的词在意义上并不一定是正交的,不逡逑同维度可能是有关联的?,二是当词典较大的时候会引发维度灾难(Curse邋of逡逑Dimensionality邋)邋0逡逑词向量可以视为Distributed邋Representation的一'种具体实现。Distributed逡逑Representation最早由Hinton与1986年提出,可以克服ont-hot的上述缺点。其逡逑基本思想是:通过训练,将语言中的每个词映射成一个长度固定的向量,这些向逡逑量可以视为词向量空间中的一个点,语义计算可以通过点之间的数学运算来实现。逡逑类比的关系可以通过向量作差来计算,如经典的例子King-Queen邋 ̄邋Man邋-逡逑Woman邋0逡逑Mikolov邋在邋2013邋年的论文中,给出邋了基于邋CBOW(ContinuousBag-of-Word)逡逑与Skip-gram邋(Continuous邋Skip-gram)的两种词向量训练方法。逡逑■POT邋raOSCTION邋miTRJT逦1:!#\1了邋PROJECTION邋OJTFliT逡逑
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3

【参考文献】

相关期刊论文 前6条

1 于东;荀恩东;;基于Word Embedding语义相似度的字母缩略术语消歧[J];中文信息学报;2014年05期

2 付剑锋;刘宗田;刘念祖;;基于多知识库和局部反馈的查询扩展研究[J];情报杂志;2013年02期

3 毛琪;黄永峰;;基于网络知识库与通用搜索引擎的查询词扩展方法[J];计算机应用;2012年S2期

4 杨清琳;李陶深;农健;;基于领域本体知识库的语义查询扩展[J];计算机工程与设计;2011年11期

5 李卫疆;赵铁军;王宪刚;;基于上下文的查询扩展[J];计算机研究与发展;2010年02期

6 王瑞琴;孔繁胜;;基于无导词义消歧的语义查询扩展[J];情报学报;2011年02期

相关博士学位论文 前1条

1 张富;模糊数据库支持的模糊描述逻辑与本体知识库抽取和存储关键技术的研究[D];东北大学;2011年

相关硕士学位论文 前2条

1 张为泰;基于词向量模型特征空间优化的同义词扩展研究与应用[D];北京邮电大学;2015年

2 邹扬;WAF改进算法在基于语义分析的查询扩展上的应用[D];北京邮电大学;2012年



本文编号:2583015

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2583015.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e4ed7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com