公司研报中投资要点提取方法的研究

发布时间:2021-10-07 19:42
  投资要点是人们进行投资决策的重要信息来源,一般出现在公司研报首页。除了投资要点,首页还包含股票名称、股票代码、标题、分析师信息以及图表数据等。金融机构发布的公司研报大多为PDF格式,而PDF文档中的文本不便于直接处理。另外,基于规则或基于模型的方法提取公司研报投资要点的准确率不高。基于以上问题,本文通过分析公司研报的版面布局结构,并借鉴VIPS算法,提出了一种公司研报投资要点的提取方法,该方法的主要工作包括两个部分:(1)基于视觉线索的PDF页面分块算法的设计与实现。通过对PDF文档的逻辑结构、物理结构以及基本对象的研究,本文借助PDFBox解析PDF文档,并将相关信息封装到本文所设计的数据结构中。然后,通过分析公司研报首页版面的布局结构以及PDF页面分块与网页分块的相似性,本文基于同一语义内容在PDF页面中具有相同或相似的视觉表现,设计了基于视觉线索的PDF页面分块算法,主要包括分隔条检测,分隔条打分以及块的重构。在分隔条的打分策略中,本文设计了23条规则;而在块重构方面,本文设计了5个参数用于调整PDF文档的分块粒度以及深度。(2)基于PDF页面分块提取公司研报投资要点。在PDF页... 

【文章来源】:西北师范大学甘肃省

【文章页数】:88 页

【学位级别】:硕士

【图文】:

公司研报中投资要点提取方法的研究


天风证券公司研报首页

文档,书签,线索,页面


西北师范大学硕士学位论文12性。每个页面中都包含对其内容(Contents)、注释(Annotations)以及缩略图(Thumbnail)的引用,从各个页面可以方便地查找到所需的资源。名字树:该引用建立了字符串与页面区域之间的关联关系,其他对象可以通过该字符串名代表一个页面区域,包括显示区域的坐标位置,显示区域的大小比例等信息。线索树:线索树通过树结构来组织文章线索和文章块(Bead)之间的关系,通过线索树可以将物理上不连续的内容在逻辑上将其串联。线索块是页面中一些预定义的区域,这些区域中主要包含一些用户感兴趣的文本或图像信息[45]。书签树:书签树中每个节点都是一个书签,每个书签都与文档中的一个区域相关联,用户可以通过书签快速跳转到指定的区域,访问相应的内容。根节点(Catalog)页面树(Pagetree)名字树(Nameddestinations)线索树(Articlethreads)书签树(Outlinehierarchy)页面(Page)页面(Page)线索树(Thread)线索树(Thread)缩略图(Thumbnail)内容(Contents)注释(Annotations)文章块(Bead)文章块(Bead)...书签名(Outlineentry).........书签名(Outlineentry)...图2-3PDF文档的逻辑结构2.2.3PDF文档实例解析本文通过简单的PDF文档介绍PDF文档的解析。由于PDF文档的文件尾中包含了交叉引用表的访问地址和根对象号等信息,是解析PDF文档的起点,所以本小节以文件尾,交叉引用表,文件头,文件体的顺序进行介绍,PDF文档如图2-4所示。图2-4简单PDF文档

源码,文档,信息,对象


第2章相关理论与技术介绍15第1~13行:页面对象6。“/Type/Page”表示当前对象为页面对象;“Parent40R”表示当前对象的父亲对象的对象号为4;“MediaBox[00531666]”表示当前页面显示的大小,以像素为单位;“/Resources<</Font<</FXF170R>>>>”表示资源对象中的字体对象的对象号为7;“/Contents80R”表示页面内容对象的对象号为8;第14~18行:字体对象7。“/Type/Font/”表示当前对象为字体对象;“/Subtype/Type1”表示字体类型为Type1;“/BaseFont/Helvetica”表示字体继承于Helvetica字体;“/Encoding/WinAnsiEncoding”表示字体的编码为WinAnsiEncoding。图2-5PDF文档内容对象源码信息使用UltraEdit工具打开PDF文档,Contents内容对象如图2-5所示,如果不使用有效的解码器对其进行解码则无法获得内容对象中的真实信息。参考PDFReference可知内容对象中的数据需要通过/Filter关键字之后的解码器解压才能得到原始内容。使用PDFStreamDumper对PDF文档解码后可得内容对象中的信息如下所示:180obj2<</Length106/Filter/FlateDecode>>3stream4BT5/DeviceRGBcs000scn/DeviceRGBCS000SCN/FXF110Tf10.343600613.400Tm1i1.3740941.1952TD[(Hello)]TJ7ET8endstream9endobj第2行:“/Length106”表示流对象的长度为106;“/Filter/FlateDecode”表示流对象的压缩方式为FlateDecode;第3行:流对象的开始标志;第4~7行:流对象中的内容。BT表示文字对象的开始标志;ET表示文字对象的结束标志;“/DeviceRGBcs000scn”表示颜色空间,DeviceRGB表示设备颜色空间,主要使用在显示器上;cs为填充操作符,设备颜色空间000分别表示红、

【参考文献】:
期刊论文
[1]基于标签和分块特征的新闻网页关键信息自动抽取[J]. 王雪梅,陈兴蜀,王海舟,王文贤.  山东大学学报(理学版). 2019(03)
[2]面向期刊论文的搜索技术的研究与设计[J]. 郭峰,韩云凤.  信息技术. 2018(08)
[3]一种规则与SVM结合的论文抽取方法[J]. 李雪驹,王智广,鲁强.  计算机技术与发展. 2017(10)
[4]基于PDFBox抽取学术论文信息的实现[J]. 牛永洁,薛苏琴.  计算机技术与发展. 2014(12)
[5]基于自动机理论的PDF文本内容抽取[J]. 王晓娟,谭建龙,刘燕兵,刘金刚.  计算机应用. 2012(09)
[6]基于SVM的论文元数据抽取方法研究[J]. 欧阳辉,禄乐滨.  电子设计工程. 2010(05)
[7]PDF科技论文语义元数据的自动抽取研究[J]. 张秀秀,马建霞.  现代图书情报技术. 2009(02)
[8]基于XSLT的PDF信息抽取技术的研究[J]. 宋艳娟,李金铭,陈振标.  计算机与数字工程. 2008(05)
[9]元数据自动抽取研究新进展[J]. 曾苏,马建霞,张秀秀.  现代图书情报技术. 2008(04)
[10]支持向量机在多类分类问题中的推广[J]. 刘志刚,李德仁,秦前清,史文中.  计算机工程与应用. 2004(07)

硕士论文
[1]基于Stacking技术的入侵检测系统的设计与实现[D]. 莫坤.北京邮电大学 2019
[2]基于改进VIPS算法和改进灰狼优化算法的主题爬虫[D]. 萧婧婕.华东师范大学 2019
[3]基于网页分块的主题爬虫技术研究[D]. 周雪.山东师范大学 2017
[4]基于视觉块识别的网页元数据提取方法[D]. 孙景春.东南大学 2017
[5]混合核支持向量机在地铁客流预测中的应用研究[D]. 赵丽琴.兰州交通大学 2015
[6]基于文档属性的PDF数学表达式信息获取[D]. 于波涛.河北大学 2015
[7]一种面向PDF文件的表格数据抽取方法的研究与实现[D]. 唐皓瑾.北京邮电大学 2015
[8]基于多级模型的金融异构信息获取与预测分析[D]. 房佳.哈尔滨工业大学 2014
[9]基于SVM的文本分类应用研究[D]. 伍岳.电子科技大学 2014
[10]金融领域信息的自动抽取与分析方法[D]. 马晶晶.哈尔滨工业大学 2013



本文编号:3422654

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3422654.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a2792***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com