面向结构理解的流式文档语料库构建方法研究

发布时间:2021-01-31 18:21
  近年来,流式文档广泛地应用在社交、媒体、办公以及出版等领域。面对海量的流式文档,如何使计算机自动、准确地理解文档成为了各行各业开展其他应用研究的基础。其中对流式文档结构的理解,一方面可为文档检查优化、文档自动排版、结构化检索等应用奠定基础,另一方面也可辅助篇章层次分析、文章主题抽取等更高层次的语义研究,有较大的应用价值。由于流式文档格式的复杂性、排版风格的差异性等因素,导致计算机自动理解其结构较为困难。传统的基于规则的文档结构理解技术已较为成熟,但使用规则匹配文档结构时,存在制定规则费时费力、方法可移植性差的问题。基于机器学习的文档逻辑结构识别方法有较好的通用性与扩展性,然而流式文档格式复杂、标注困难、过去积累的成果较少,导致机器学习方法用于流式文档结构理解面临着标注成本过高、语料库稀缺的问题。本文针对上述问题,研究面向结构理解的流式文档语料库构建理论与方法,包括流式文档逻辑结构标注体系的确立与标注方法的研究、流式文档逻辑结构语料库的构建与评价方法等关键问题,研究内容和创新成果包括:1、针对采用机器学习方法识别流式文档结构时,语料库稀少,语料标注复杂的问题,借鉴自然语言语料库构建的成熟... 

【文章来源】:北京信息科技大学北京市

【文章页数】:71 页

【学位级别】:硕士

【部分图文】:

面向结构理解的流式文档语料库构建方法研究


文档逻辑结构标注语料库总体构建框架

序列,文档,内容


第3章面向结构理解的流式文档多层次信息标注体系研究14文件。图3.1Word文档压缩包内容WordprocessingML是OOXML中用于生成和创建Word文件所使用的置标语言。它是OOXML的一部分。表3.1中列出了一些基本的Word文档部件,包括对各部件名称与其描述内容说明。表3.1常见部件介绍部件名称描述内容说明app.xml应用程序特定的属性core.xml文档格式的通用文件属性。theme1.xml文档的主题的所有信息,如颜色,字体大小等document.xml文档中所有可见文字的内容和属性及不可见部分的内容和属性fontTable.xml文档所使用的字体信息settings.xml文档总体的设置信息style.xml文档整体样式信息webSettings.xml文档左右间距等的样式信息comments.xml文档中的批注信息footnotes.xml文档中的脚注部分信息document.xml是Word文档的主部件,存储着文档中所有的文字内容和属性,图3.2是一个最简单的document.xml文档结构(图中省略部分标签)。可以看到,文档的根元素是w:document,其中包含有多个块级元素w:p,表示文档中的一个自然段落;w:p中可包含多个w:r,表示一段包含字体、字号等常见格式属性的连续文本;w:r还可以包含多个w:t,表示一段文本范围。另外,w:p中有w:pPr标签用来描述段落格式属性,w:r中有w:rPr标签用来描述文本格式属性,包含描述字号w:szCs、对齐方式w:jc、首行缩进w:ind等排版格式的标签。可见文档内容在底层表现为使用w:p标签描述的段落序列,并与样式等数据相关联。因此OOXML标准作为办公文档的一种存储格式,能够记录文档内容并提供丰富的排版样式,但在文档语义信息方面的描述能力较弱,也不能记录层次化的文档结构语义信息。

组件图,本体,文档,组件


第 3 章 面向结构理解的流式文档多层次信息标注体系研究(Semantic Publishing and Referencing Ontologies, SPAR)中的子模块。SPAR 由英国牛津大学 D.Shotton 和意大利博洛尼亚大学 S.Peroni 共同构建,旨在改善出版领域现有词表存在的内容不全、针对性不强等问题,广泛应用在语义出版领域。DoCO 融合了模式本体(Pattern Ontology, PO)和话语元素本体(Discourse Element Ontology, DEO),能够从结构和修辞两个方面描述文档组件,但其总体为平行结构,缺乏对本体之间的层级描述,难以对文档内容进行结构化描述。图 3.3 描述了组成文档组件本体的本体类。

【参考文献】:
期刊论文
[1]面向机器学习的训练数据集均衡化方法[J]. 李国和,张腾,吴卫江,洪云峰,周晓明.  计算机工程与设计. 2019(03)
[2]不平衡数据挖掘方法综述[J]. 向鸿鑫,杨云.  计算机工程与应用. 2019(04)
[3]一种基于质心空间的不均衡数据欠采样方法[J]. 金旭,王磊,孙国梓,李华康.  计算机科学. 2019(02)
[4]面向事件的中文指代语料库的构建[J]. 张亚军,刘宗田,李强,周文.  上海大学学报(自然科学版). 2018(06)
[5]面向藏语声纹识别的语料库建设[J]. 周雁,西绕多吉.  计算机工程与科学. 2018(11)
[6]中文嵌套命名实体识别语料库的构建[J]. 李雁群,何云琪,钱龙华,周国栋.  中文信息学报. 2018(08)
[7]基于中文电子病历的心血管疾病风险因素标注体系及语料库构建[J]. 苏嘉,何彬,吴昊,杨锦锋,关毅,姜京池,王焕政,于秋滨.  自动化学报. 2019(02)
[8]基于三支决策的不平衡数据过采样方法[J]. 胡峰,王蕾,周耀.  电子学报. 2018(01)
[9]基于VBA的Word文档XML结构化标记方法[J]. 侯修洲,黄延红.  编辑学报. 2017(05)
[10]一种流式文档逻辑结构重建方法[J]. 赵雪,侯霞.  北京信息科技大学学报(自然科学版). 2017(05)

博士论文
[1]语料库研究[D]. 何婷婷.华中师范大学 2003

硕士论文
[1]基于B/S架构的语料库管理系统[D]. 于娜娜.哈尔滨理工大学 2017
[2]面向中文维基百科模糊限制信息检测的语料库建设与研究[D]. 曾春桥.大连理工大学 2014
[3]古代汉语史书语料库建设的初步研究[D]. 宋文瑞.东北大学 2011



本文编号:3011365

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3011365.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9649b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com