当前位置:主页 > 经济论文 > 股票论文 >

并购重组类公告的信息抽取系统研究与实现

发布时间:2020-07-04 03:40
【摘要】:上市公司并购重组类公告信息的结构化处理,可以为投融资决策、市场监管、股市预测、企业画像等领域提供有效的数据支撑,成为股市和证券市场应用服务开发的重要一环。如何精准且高效地实现并购重组类公告信息的结构化,成为当前金融和证券公司着重需要解决的问题之一。并购重组类公告是一种具有固定格式的自由长文本,针对公告特点,本文提出一种规则法和序列标注法相结合的的公告信息抽取方案。该方案主要包含两部分,第一部分为“句子级”抽取,采用规则法,以“标题定位内容”的方式将“篇章级”抽取缩小为“句子级”抽取。首先从公告文本中提取文本结构树,按照一定的格式存储;然后设计一套规则标签体系,用于约束规则模板的制定;最后编写规则逻辑运算抽取引擎,通过解析规则模板,从公告文本中抽取出所需的句子集合。第二部分为“字段级”抽取,采用序列标注法,训练基于双向门控循环网络和注意力机制的序列标注联合模型从句子集合中抽取出字段信息。首先采用Glove词向量工具将词序列映射为低维实数向量;然后通过双向门控循环网络获取文本的上下文语义信息;接着通过融合关联实体矩阵的注意力层,得到实体的权重分布,从而有效学习全文“篇章级”信息和关联实体对之间的语义信息;最后由条件随机场层得到标签序列的最优解,通过标签解析得到最终的字段信息。此次共抽取包含“交易标的”、“成交金额”等在内的12个字段信息,实验结果显示:该方案的平均准确率为93.46%、平均召回率为91.52%、平均F1值为92.52%。证明该方案在并购重组类公告信息抽取任务中具有良好的可行性和实用性,同时也为自由长文本的信息抽取任务提供一种解决思路。本文在上述方案的基础上,根据实际需求设计并实现了面向并购重组类公告的信息抽取系统。该系统主要包含数据抓取模块、“句子级”抽取模块、“字段级”抽取模块、数据存储模块以及人工交互模块,可以精准且高效的实现并购重组类公告信息的结构化。
【学位授予单位】:重庆邮电大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:F832.51;TP391.1
【图文】:

文本,配套资金,关联交易,报告书


讯网”上抓取的《深圳市新纶科技股份有限公司发行股份及支付现金购买资产并募集配套资金暨关联交易报告书》为例进行说明,该公告文本大小为14,226KB,共包含388页,公告文本截图如图3.1所示,(a)为公告目录截图,(b)为公告正文截图。

募集资金,字段,标题,规则模板


重庆邮电大学硕士学位论文表 3.2 “配套融资金额”字段规则模板(续)标签 规则paragraph FALSE((1 and 2 and 3 and 4) and (6 and 7 and (not 8))) or ((13) and (6 and 7 and (not 8))) or ((1 and 2) and (6 and 8))) or (5 and (6 and 7 and (not 8)))结,发现“配套募集资金”字段在公告文本中表述方式通抽取的句子处于第二级标题下,例:一级标题“重大事方案概况”,如图 3.3 所示。

【相似文献】

相关期刊论文 前10条

1 郭喜跃;何婷婷;;信息抽取研究综述[J];计算机科学;2015年02期

2 许细清;林世平;;Web文档评价对象抽取研究[J];计算机工程;2011年06期

3 还书国;邱海霞;;WEB信息抽取的研究[J];消费导刊;2008年12期

4 邓尚民;孙玉伟;;信息抽取系统的研究现状[J];现代图书情报技术;2006年03期

5 邓擘;郑彦宁;傅继彬;;汉语实体关系模式的自动获取研究[J];计算机科学;2010年02期

6 邓擘;郑彦宁;;使用种子抽取实体关系模式[J];计算机与数字工程;2009年09期

7 陈俊彬;;Web信息抽取策略及其实现方法研究[J];科技情报开发与经济;2008年23期

8 陈静;朱巧明;贡正仙;;基于Ontology的信息抽取研究综述[J];计算机技术与发展;2007年10期

9 陈玉华;林来宾;;信息抽取在自然语言查询接口中的应用与研究[J];计算机与数字工程;2008年04期

10 刘静;;标准内容抽取方法研究[J];无线互联科技;2014年08期

相关会议论文 前10条

1 王磊;;基于OpenIE技术的人工智能信息抽取方法浅析[A];荆楚学术2017年第7期(总第十五期)[C];2017年

2 王磊;;基于OpenIE技术的人工智能信息抽取方法浅析[A];荆楚学术2017年第8-9期[C];2017年

3 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年

4 杨志豪;赵哲焕;李彦鹏;胡运翠;谢冬;林鸿飞;;生物医学文献蛋白质关系抽取——从实体识别到网络构建[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

5 李丹;罗智勇;;基于序列模式挖掘的人物关系识别[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

6 吴平博;陈群秀;马亮;;基于时空分析的线索性事件的抽取与集成系统研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

7 张霄军;;Web汉英平行新闻语料获取的困难及对策[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年

8 乔春庚;肖诗斌;孙丽华;施水才;;规则与统计相结合的案件名称识别[A];第三届学生计算语言学研讨会论文集[C];2006年

9 吕国英;冯艳;李茹;;基于中文框架语义的信息抽取研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

10 李昕;朱永盛 ;武港山;;论坛消息语义结构的提取与分析[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

相关博士学位论文 前10条

1 费玉莲;面向电子商务的谈判支持系统研究[D];浙江工商大学;2011年

2 穆一夫;基于认知的非结构化信息抽取关键技术与算法研究[D];中国矿业大学(北京);2013年

3 胡德鹏;基于农业本体问句分析的问答系统研究与架构设计[D];中国农业科学院;2013年

4 李欢;问答系统中的文本信息抽取研究与应用[D];中国科学技术大学;2009年

5 郭勇;基于语义的网络知识获取相关技术研究[D];国防科学技术大学;2007年

6 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年

7 王朝霞;专利知识获取及其支持概念创新设计的方法研究[D];浙江大学;2009年

8 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年

9 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年

10 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年

相关硕士学位论文 前10条

1 李胜;并购重组类公告的信息抽取系统研究与实现[D];重庆邮电大学;2019年

2 李慧;基于用户评论信息的商品推荐技术[D];扬州大学;2007年

3 安源源;基于本体的生物农药信息抽取系统的设计与实现[D];电子科技大学;2014年

4 陈静;基于本体的信息抽取研究[D];苏州大学;2007年

5 陈思佳;实体关系抽取技术研究[D];北京邮电大学;2014年

6 哈寅晨;领域本体的实例及其关系的自动获取[D];北京工业大学;2014年

7 吉伟锋;基于汽车行业的Web信息抽取研究[D];辽宁工程技术大学;2007年

8 马艺璇;数字化航行通告关联规则挖掘及分类模型研究[D];天津大学;2014年

9 刘方驰;基于文本的实体—关系抽取技术研究[D];国防科学技术大学;2013年

10 郭凯;企业关系挖掘技术研究[D];哈尔滨工业大学;2010年



本文编号:2740584

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/jinrongzhengquanlunwen/2740584.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2486a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com