基于NLP的金融公告分类与抽取系统的设计与实现
发布时间:2021-03-12 11:01
随着国家经济活力的进一步增强,上市公司总数不断增多,金融公告数据分析的难度进一步加大。为了更快速、准确地为风投公司、资金托管机构提供分析数据,金融公告分类与抽取平台使用了大数据加自然语言处理技术,使得每天全国上万家上市公司的公告都能即时得到分析处理。为了提高公告的分类以及抽取准确性,系统中使用二级改进文本抽取方法,先分类出含有属性值的文本行或段(潜在标签),再进行属性值抽取,大大提高了数据平台的核心竞争力。本文首先阐述了项目背景、相关产品的国内外现状以及关键技术与理论,对整个系统进行了功能性和非功能性需求分析。根据需求分析进行了系统的整体架构设计、划分各个模块的主要功能点与数据库设计,然后着重对系统进行了详细设计与实现。笔者完整参与了整个研发过程,独自完成了公告分类模块、公告标注模块、公告属性值抽取模块的主要开发工作,并参与了朴素贝叶斯、潜在标签分类、NER命名实体识别算法的调研与实现工作。在基本需求完成的基础上,笔者针对不同的分词方法、文本分类模型进行了大量的对比实验,开发了分词、数据预处理、调参模块对模型进行了性能优化;并通过语法规则、正则表达式、NER命名实体识别相组合的实验方法...
【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校
【文章页数】:86 页
【学位级别】:硕士
【部分图文】:
Ow模型实现图
图2-3?Skip-gram模型实现图??Figure?2-3?Skip-gram?model?implementation?diagram??在实际的使用中,两种预测方式都具有较好的词向量表达能力
图3-1系统功能模块图??Figure?3-1?System?function?module?diagram??
【参考文献】:
期刊论文
[1]Automatic extraction and structuration of soil–environment relationship information from soil survey reports[J]. WANG De-sheng,LIU Jun-zhi,ZHU A-xing,WANG Shu,ZENG Can-ying,MA Tian-wu. Journal of Integrative Agriculture. 2019(02)
[2]Hadoop综述[J]. 李元亨,邹学玉. 电脑知识与技术. 2018(09)
[3]基于规则的海事自由文本信息抽取方法研究[J]. 余晨,毛喆,高嵩. 交通信息与安全. 2017(02)
[4]知识图谱的发展与构建[J]. 李涛,王次臣,李华康. 南京理工大学学报. 2017(01)
[5]MapReduce大数据处理平台与算法研究进展[J]. 宋杰,孙宗哲,毛克明,鲍玉斌,于戈. 软件学报. 2017(03)
[6]Word2vec的工作原理及应用探究[J]. 周练. 科技情报开发与经济. 2015(02)
[7]中文分词与词性标注研究[J]. 梁喜涛,顾磊. 计算机技术与发展. 2015(02)
[8]大数据技术研究综述[J]. 张锋军. 通信技术. 2014(11)
[9]基于改进TFIDF算法的文本分类研究[J]. 郑霖,徐德华. 计算机与现代化. 2014(09)
[10]中文分词研究[J]. 张黎,徐蔚然. 软件. 2012(12)
博士论文
[1]基于n-gram的中文文本复制检测研究[D]. 张伟.湖南大学 2014
硕士论文
[1]机器学习中损失函数问题研究[D]. 苏美红.西北大学 2015
[2]基于CRF和名词短语识别的中文微博情感要素抽取[D]. 赵勋.大连理工大学 2014
[3]特征提取方法及其应用研究[D]. 周涛.江南大学 2012
本文编号:3078191
【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校
【文章页数】:86 页
【学位级别】:硕士
【部分图文】:
Ow模型实现图
图2-3?Skip-gram模型实现图??Figure?2-3?Skip-gram?model?implementation?diagram??在实际的使用中,两种预测方式都具有较好的词向量表达能力
图3-1系统功能模块图??Figure?3-1?System?function?module?diagram??
【参考文献】:
期刊论文
[1]Automatic extraction and structuration of soil–environment relationship information from soil survey reports[J]. WANG De-sheng,LIU Jun-zhi,ZHU A-xing,WANG Shu,ZENG Can-ying,MA Tian-wu. Journal of Integrative Agriculture. 2019(02)
[2]Hadoop综述[J]. 李元亨,邹学玉. 电脑知识与技术. 2018(09)
[3]基于规则的海事自由文本信息抽取方法研究[J]. 余晨,毛喆,高嵩. 交通信息与安全. 2017(02)
[4]知识图谱的发展与构建[J]. 李涛,王次臣,李华康. 南京理工大学学报. 2017(01)
[5]MapReduce大数据处理平台与算法研究进展[J]. 宋杰,孙宗哲,毛克明,鲍玉斌,于戈. 软件学报. 2017(03)
[6]Word2vec的工作原理及应用探究[J]. 周练. 科技情报开发与经济. 2015(02)
[7]中文分词与词性标注研究[J]. 梁喜涛,顾磊. 计算机技术与发展. 2015(02)
[8]大数据技术研究综述[J]. 张锋军. 通信技术. 2014(11)
[9]基于改进TFIDF算法的文本分类研究[J]. 郑霖,徐德华. 计算机与现代化. 2014(09)
[10]中文分词研究[J]. 张黎,徐蔚然. 软件. 2012(12)
博士论文
[1]基于n-gram的中文文本复制检测研究[D]. 张伟.湖南大学 2014
硕士论文
[1]机器学习中损失函数问题研究[D]. 苏美红.西北大学 2015
[2]基于CRF和名词短语识别的中文微博情感要素抽取[D]. 赵勋.大连理工大学 2014
[3]特征提取方法及其应用研究[D]. 周涛.江南大学 2012
本文编号:3078191
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3078191.html