基于深度学习的金融知识图谱系统研究

发布时间:2021-10-24 22:08
  金融知识图谱是以图的结构展示和存储金融领域实体及其关系的领域知识图谱。构建金融知识图谱的关键是从公告、研报等文本数据中抽取实体及关系。有监督学习的关系识别模型可以有效地提取语义特征但是需要大量的已标注语料。众包构建和远程监督方法是语料标注的常用方法,但远程监督方法会引入噪声数据,如何改进远程监督以减少噪声数据是本文需要解决的问题之一。此外,公告和研报等金融领域的语料多为长语句,对这些语料的处理存在长距离依赖和长语句编码语义丢失的问题,如何选择合适的算法解决这些问题以构建关系识别模型,是本文需要解决的问题之二。针对上述问题,本文以实验室承担的实际项目为背景,在对知识图谱构建技术、深度学习、关系识别等相关技术深入研究的基础上,提出并实现了基于上下文相似度降噪的改进远程监督方法(简称CSD)以及基于BiLSTM和注意力机制的关系识别模型(简称DRCM)。结合CSD方法和DRCM模型,本文设计并实现了一个金融知识图谱原型系统(简称FKGS)。FKGS包括语料标注、关系识别、实体关系存储等功能模块。测试情况表明,该系统是可行及有效的。本文的工作要点与创新点如下:1)CSD及其语料标注。远程监督标... 

【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校

【文章页数】:83 页

【学位级别】:硕士

【部分图文】:

基于深度学习的金融知识图谱系统研究


知识图谱逻辑架构

框架图,知识图,框架,多语言


上海交通大学硕士学位论文-5-表2-1现有知识图谱的覆盖范围Table2-1Coverageofexistingknowledgegraph知识图谱构建方式数据来源语言范围Cyc人工—英文通用WordNet人工—英文通用Freebase半自动百科英文通用GeoNames半自动百科多语言领域Dbpedia半自动百科多语言通用YAGO自动百科多语言通用OpenIE自动纯文本英文通用BabelNet自动知识图谱多语言通用WikiData半自动百科多语言通用搜狗知立方自动百科中文通用百度知心自动百科中文通用CN-DBpedia自动百科中文通用根据覆盖范围而言,知识图谱可分为通用知识图谱和领域知识图谱。通用知识图谱注重广度,希望可以覆盖各个领域的知识,包含更多的实体。但是和单一领域的知识图谱相比,缺少具体的领域知识,所以知识的深度往往不够。目前大多数知名度较高的知识图谱都是通用知识图谱,如Freebase、DBpedia、Yago等都是基于百科数据构建。图2-2通用知识图谱构建框架Fig.2-2Generalknowledgegraphconstructionframework

序列,历程,技术,模型


上海交通大学硕士学位论文-7-多、识别难度最大、对分词效果影响最大问题。同时NER也是关系抽娶事件抽娶知识图谱、机器翻译、问答系统等诸多任务的基矗图2-3命名实体识别技术发展历程Fig.2-3Developmentprocessofnamedentityrecognition命名实体识别技术的发展历程如图2-3所示。在基于机器学习的方法中,NER被当作序列标注问题。利用大规模语料来学习出标注模型,从而对句子的各个位置进行标注[4]。NER任务中的常用模型包括生成式模型HMM[5]、判别式模型CRF[6]以及隐马尔可夫模型[7]等,条件随机场(ConditionalRandomField,CRF)是其中的主流模型[8]。它的目标函数不仅考虑输入的状态特征函数,而且还包含了标签转移特征函数。在训练时可以使用SGD学习模型参数。在已知模型时,给定输入序列预测输出序列即求使目标函数最大化的最优序列,是一个动态规划问题,可以使用Viterbi算法解码来得到最优标签序列。CRF的优点在于其为一个位置进行标注的过程中可以利用丰富的内部及上下文特征信息。近年来,随着硬件计算能力的发展以及词的分布式表示(wordembedding)[9]的提出,神经网络可以有效处理许多NLP任务。文献[10]最早将神经网络用于命名实体识别领域,作者提出了窗口方法和句子方法两种网络结构。前者使用预测词的上下文窗口作为神经网络的输入,后者以整个句子作为当前词的输入,通过位置特征区分其中的每个词,然后使用卷积层。后来随着注意力机制的流行,Rei等人[11]提出了在RNN-CRF模型的基础上,对于词向量和字向量的拼接进行了改进,通过注意力机制将原来的拼接方式改进为权重求和,利用神经网络来学习注意力层的权值。因为深度学习需要大量训练语料才可以得到效果较好的模型,因此目前也有部分学者研究如何使用少量标注数据进?

【参考文献】:
期刊论文
[1]维基百科语义背景知识的共指消解研究[J]. 张贵军.  信息通信. 2018(01)
[2]深度学习研究综述[J]. 马瑜璠.  读书文摘. 2017(06)
[3]知识图谱技术综述[J]. 徐增林,盛泳潘,贺丽荣,王雅芳.  电子科技大学学报. 2016(04)
[4]地理数据空间本体构建及其在数据检索中的应用[J]. 王东旭,诸云强,潘鹏,罗侃,侯志伟.  地球信息科学学报. 2016(04)
[5]知识图谱构建技术综述[J]. 刘峤,李杨,段宏,刘瑶,秦志光.  计算机研究与发展. 2016(03)
[6]基于核函数中文关系自动抽取系统的实现[J]. 刘克彬,李芳,刘磊,韩颖.  计算机研究与发展. 2007(08)



本文编号:3456073

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3456073.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户77193***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com