面向学术文献数据的同名作者消歧方法研究
【文章页数】:97 页
【学位级别】:硕士
【部分图文】:
图1-11936-2019年间各年文献出版数量当前,学术文献数目的不断累积和递增,是产生一系列学术信息爆炸问题的
华东师范大学硕士学位论文1第一章绪论1.1研究背景与意义近现代以来,随着世界科学研究的蓬勃发展,各类学术文献数量正以惊人的速度不断增长着。依据文献增长规律来看,据不完全估计,世界上非学术类的文献数量翻一番的时间大概为三十年到五十年,而学术科研工作所产生的学术文献,其数量上翻一倍的....
图2-1NNLM模型结构
华东师范大学硕士学位论文19产生数据稀疏问题,所以一般n的取值为2或者3。另外,这种基于词的表示方法,词之间的关系还是无法衡量。2.2.2文本分布式表示为了缓解文本的离散表示存在的向量稀疏问题以及词汇鸿沟现象,文本的分布式表示很自然地被提了出来。文本分布式表示(Distribut....
图2-2CBoW模型和Skip-Gram模型结构
华东师范大学硕士学位论文20后来在2013年来自谷歌公司的Mikolov[31]基于NNLM的思路,对神经网络语言模型进行简化,提出了Word2Vec模型,并开源了能够直接生产低维词向量的工具3。由于模型的简化和训练方法的优化,Word2Vec不仅能够在百万级的词典亿级数据集上高....
图2-3Skip-Gram模型原理
华东师范大学硕士学位论文21图2-3Skip-Gram模型原理目标函数:对于一个中心词其目标为最大化其周边任意单词的log概率。跳词模型(skip-gram)实际上是计算输入词的输入向量与目标词的输出向量之间的余弦相似度,然后再经过Softmax进行概率归一化。由于Softmax....
本文编号:3938756
本文链接:https://www.wllwen.com/tushudanganlunwen/3938756.html