基于企业价值评估的金融数据智能提取方法研究
1导论
1.1研究背景及意义
由于关键字检索技术不能满足一些场合的需求,近些年,一些新的研究也开始着力于提高信息检索技术的效率和准确性。信息提取技术就是其中一种获取特定事件或者事件与事件之间关系的技术,是一个从无结构的自由文本或其他信息资源中抽取出结构化,无二义性信息的过程。信息提取技术不仅仅能过滤掉对用户没有用的信息,而且还能生成用户感兴趣的特定信息。信息提取技术综合了人工智能和自然语言处理技术,在信息检索领域扮演着不可或缺的角色。
对企业市场价值进行评估,例如无形资产的评估,需要这家公司的所有金融的数据及所处行业的金融数据,包括公司的财务报表和报表的附注,相关的产业财经新闻及宏观微观经济数据等。这些数据大部分都以网页源收集整理相关的金融数据,仔细整理分析过滤出来自己想要的数据,而没有一个地方直接能够拿到所有想要的数据,这样花费了大量人力和时间,而且大部分工作都是重复的劳动。所以,本研究致力于通过一种自动智能的方式从不同的数据源提取金融数据,用户不仅能在最短时间里拿到自己想要的数据,同时能够提髙数据准确性和有效性。在拿到这些数据之后,根据预先设立评估的模型,得出企业价值评估结果,这样将大大提髙决策效率,为股票投资,兼并重组,财务风险评估等金融相关的决策提供支持。
..........................
1.2研究对象及思路
本研究的目标是使用现代信息提取技术分析出一套金融信息智能提取方法,然后结合金融知识,设计开发一个计算机程序,快速智能从财务报表,报表的附注已经相关财经新闻等提取金融数据,来进行企业价值评估。其中财务报表来源于财经网站金融界,报表的附注来此CNinfo网站,财经新闻主要来自金融界等财经网站。一旦获得这些金融数据,可应用于企业各种经营活动当中,节省人力资本及提高决策效率。
为了能从财务报表,报表附注以及金融新闻提取数据来进行企业价值评估,主要从以下两方面着手:
1.关键字检索和提取
首先,给用来从金融数据和报表附注提取金融数据的关键字自定义中文词的词性及做词性标记,然后,设计一个方法来根据这些预定义的词性标记和词的属性来从金融新闻和报表附法提取金融数据。同时本文还将利用正侧表达式来快速识别和提取财务报表中每个项目的金融数据。
2.分析和设计一个企业价值评估的数据库系统
根据企业价值评估模型,分析和设计一个企业价值评估的数据库系统,这个系统描叙了评估模型和财务报表项目的之间关系。换句话说,根据预定义在数据库中评估模型,从不同数据源中智能提取相关的金融数据。一旦所需的金融数据提取完成,就能快速分析与计算出评估结果。
..........................
2理论基础
2.1智能信息提取
信息提取可以用于从不同类型的数据源来获取有用的信息,用户通过这些有用的信息能快速理解这些文档。在互联网上的纯文本的网页,是非结构化的文档。根据预先定义的模板,它能从这些文档中获取特定的信息,并且生成一些用户感兴趣的数据字段。简单来讲就是,信息提取能够从大量的不同类型的数据提取有用的信息,最终来帮助用户快速的理解文档。因此,信息提取在文本的处理中扮演了重要的角色。
信息提取技术提供用户感兴趣的信息。它的技术依赖于自然语言的处理,提取形成特定信息或者概念的词汇。自然语言处理,让计算机能理解人类的语言,并且能让其理解人类的知识库,最终达到计算机和人类的能够进行有效的沟通。它也通常应用在信息的检索领域",例如问答系统,分档的分类,机器翻译,写作助手,语音识别等。在自然语言处理当中,智能分词和词汇分析是常用方法。
结构化的数据,或者说表格数据是一种简单标准化的数据。表格数据由于比较规范,用户很快能够了解,对于计算机而言,只需要知道真结构,就能快速的提取需要的数据。
...........................
2.2中文词性标注
词性的概念源自于语言学,表不某个词在语言学上的分类。在传统上,送些分类是根据词在词形和句法上的不同行为和不同功能划分的。如果词能够出现在相似的环境中(分布特征),就把它们归为一类。同一类的词会有语义一致性的倾向,但语义的一致性并不总是必要的,所以—般来说我们不是用语义一致性作为定义词性的标准。常见的词性包括名词(描写"人、地点或事物")、形容词(描写"性质")和动词(描写"动作")等。
词性标注主要是用来消除分词时产生的歧义,利用上下文来消除词的歧义。在中文的系统里,同一个词有完全不同的含义,但是往往他们在句子中扮演了不同的角色,或者在不同的句子结构里面有不同的含义。例如下面的句子:S1="他是北京大学的教授"。S2="他在北京大学教授计算语言学"。在句子S1中,"教授"是一个表示职称的名词,而句子52中"教授"是一个动词。对人来说,这样的词性歧义现象比较容易排除,但是对于没有先验知识的机器来说是比较困难的。这种语言现象称作词性兼类。这在汉语中很突出,据不完全统计,常见的词性兼类现象有几十种,这些兼类现象具有下分布特征:1)在汉语词汇中,兼类词的数量不多,约占总词条的5-11%。2)兼类词的实际使用频率很高,约占总词次的40-45%。也就是说,越是常用的词,其词性兼类现象越严重。3)兼类词现象分布不均:在孙茂松等的统计中,仅动名兼类就占全部兼类现象的49.8%;在张民门的统计中,动名兼类和形副兼类就占全部113种兼类现象的62.5%。
............................
3基于企业价值评估的金融数据智能提取方法...............11
3.1财务报表的金融数据智能提取................12
3.1.1DOM树方法............12
4基于企业价值评估的金融数据智能提取方法的程序设计................22
4.1爬网蛛设计..................22
4.1.1URL处理模块..................23
5基于企业价值评估的金融数据智能提取方法的应用...............32
5.1智能提取方法在企业并购重组中的应用....................33
5.2智能提取方法在企业股票投资中的应用.................35
5基于企业价值评估的金融数据智能提取方法的应用
5.1智能提取方法在企业并购重组中的应用
在国内市场上,中国证监会已基本形成上市公司收购和资产重组为主要内容、侧重于发挥市场自治功能的较完善的规则体系。在证监会的积极支持和规范下,近年国内上市公司并购重组市场不断发展,从规模上看,每年发生100多起,且呈逐年上升之势,据有关统计,我国上市公司并购重组活动涉及的资金额已超过通过资本市场直接融资的资金额,凸显出市场利用并购重组进行存量调整、优化资源配置的趋势。从规范程度上看,上市公司并购重组行为日趋规范,市场化程度日益提高。
并购重组的核心是发现价值被低估的公司,或可通过协同效应等为自身带来更大价值的公司,因此离不开企业价值评估。并购重组通常包括重大资产重组、上市公司收购、上市公司定向发行新股购入资产以及上市公司股份回购四类,企业价值评估在这四类业务中均能发挥重要的作用。
过去,企业并购人员需要手工搜集整理被并购企业过去的经营情况,包括过去五到十年的财务报表及企业经营活动的一些公告和新闻,而且由于并购对象都在两个或者两个以上,,需要做横向的对比。因此,通常对这些并购对象的企业价值评估都需要两三周的时间,这样很有可能被竞争对手夺得先机,而导致并购计划失败。
............................
6结论
6.1全文总结
随着互联网信息的爆炸式増长,如何快速便捷地获取和管理这些信息,成为当前互联网用户亟待解决的重要问题。尤其是金融领域,现在大部分时候,人们还依赖手工的收集数据,这样既浪费时间,同时准确率也不高。信息提取技术的出现解决了这些问题,也成为当前研究的热点。
本文就数据智能提取技术在企业价值评估中的应用进行了深入分析和研究,并结合企业价值的评估模型,设计开发出一个原型系统,从财务报表、报表附注及相关金融新闻提智能取数据快速并生成评估结果。在数据的智能提取的过程中,对现有的中文分词和词性标注的结果进行了重新标注,大大提取了数据提取的精度和效率。根据评估模型,本文设计了一个评估的数据库,利用这个数据库,这个系统能自动从三大数据源获取相关评估模型的金顯数据。
从实证研究和性能分析及在企业经营活动中应用来看,可以看到研究模型获得了不错的性能。这样不仅仅能节省大量的时间,提高决策效率,而且利用这一原型系统能够为企业并购重组,企业股票投资及企业财务风险等经营管理活动提供准确的数据。因此,实验结果验证了本文研究的可行性与实用性。
参考文献(略)
本文编号:554561
本文链接:https://www.wllwen.com/wenshubaike/kjzx/554561.html