英语学术论文摘要语步结构自动识别模型的构建
发布时间:2017-06-10 02:10
本文关键词:英语学术论文摘要语步结构自动识别模型的构建,由笔耕文化传播整理发布。
【摘要】:大数据时代,如何科学、全面的反映一个学科的知识结构和发展状况至关重要,摘要是学科知识挖掘的一个便捷且重要的数据来源,但现有的知识挖掘很难定位摘要中的关键信息语步,更无法实现语步内部的知识挖掘,这就需要构建摘要语步的自动识别模型。基于文本自动分类的研究成果,自然语言处理领域出现了三类摘要语步自动识别模型,但这三类模型各有利弊。纯粹以统计词频构建的词袋模型,虽然能够穷尽词项特征,但对特征不做筛选和归类,导致特征稀疏。基于规则提取语言学特征构建的模型,虽然避免了特征稀疏的问题,但未能全面系统地提取所有特征。第三类结合词袋和语境特征构建的模型,虽然识别效果很好,但只能针对结构化摘要,对大量非结构化摘要的识别效果仍然差强人意。针对这种情况,本研究旨在以现有的摘要语步结构自动识别模型为出发点,针对现有模型语言特征提取不足的问题,结合语言学理论和方法,提取新的特征,同时借助语料库语言学、自然语言处理、信息检索技术以及统计学等学科中的研究方法,试图构建运行效果更好的能够自动识别常见类型英文摘要语步结构的模型。本研究模型的构建大体分四个阶段:(1)语料的准备和预处理阶段。我们下载了Web of Science数据库收录的《应用语言学》期刊自1993年到2014年出版的所有论文摘要,剔除书评、会议论文、编者语,共计440篇。然后对文本进行清理,以及进行自动词性赋码和句法分析。(2)人工标注阶段。由三位相关专业研究人员对语料进行人工标注,标注过程前后持续一年,经历了基于已有研究提出的标注方案自上而下地标注,以及不带有任何已有的方案自下而上地标注,最后采用了两种方法相结合的方式,并确定了以完整的语句为标注单位的六语步标注方案。经检验,两位标注人员独立标注的一致性较好(Kappa =.785),然后对独立标注中二者不一致的地方进行多次讨论、修改,达成完全一致。(3)提取特征构建模型阶段。人工标注完语步结构之后,利用一系列研究工具和方法,提取有效的语步预测特征,再利用这些特征和数据训练学习分类器(条件随机场),获得模型。(4)模型的验证阶段。利用构建的模型预测验证集的语步类别,将模型预测的验证集的语步类别与人工标注类别对比,得到模型的识别效果,再与现有的同类模型作对比,探索本模型的优势与不足。本研究的主要发现可以概括为摘要的语步分析、语步结构的有效预测特征和模型的识别效果三方面。第一,本研究突破了传统语步分析的方法,基于对大量数据的实际分析印证并完善了已有的语类研究理论。第二二,本研究验证了已有模型提取的4个特征的有效性,证实了新加入的3个特征的有效预测力,通过对比发现以语料库的方法提取的新特征比传统方法提取的特征效果更好。从特征的三个维度来看,意义特征对语步的识别度最高(F=0.609),其次是语境特征(F=0.428),识别度最低的是形式特征(F=0.317)。第三,本研究构建了摘要语步结构的自动识别模型,模型的识别效果(F=0.7819)是现有自动识别模型中效果最好的,对信息型摘要的识别效果比现有识别效果最好的模型提高了4.5%。为了保证可比性,我们利用同一批语料训练词袋模型AntMover,结果本研究的模型比AntMover的识别效果提高了约23%。摘要语步结构自动识别模型的构建,为下一步学科知识挖掘中定位摘要的语步以及语步内部的关键知识奠定了基础。另一方面,语步的自动识别突破了ESP领域长久以来的人工识别法,为语步分析理论和实证研究走向更多的学科和研究领域,发展成为一个更全面、多视角、多维度的语步分析领域提供了可能。
【关键词】:语类分析 语步结构 自动识别 英文摘要
【学位授予单位】:北京外国语大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:H315
【目录】:
- 致谢4-6
- 摘要6-8
- Abstract8-18
- 缩略语表18-19
- 第一章 绪论19-24
- 1.1 研究背景19-20
- 1.2 本选题的意义20-22
- 1.2.1 理论意义20
- 1.2.2 方法意义20-21
- 1.2.3 实践意义21-22
- 1.3 研究概述22
- 1.4 论文结构22-23
- 1.5 小结23-24
- 第二章 已有的摘要语步结构自动识别模型综述24-44
- 2.1 关键概念24-26
- 2.1.1 摘要24-25
- 2.1.2 语类25-26
- 2.1.3 语步26
- 2.2 文本分类26-33
- 2.2.1 定义及其发展26-27
- 2.2.2 文本分类的一般步骤27-28
- 2.2.3 文本分类器28-33
- 2.3 现有的摘要语步自动识别模型33-42
- 2.3.1 词袋模型33-34
- 2.3.2 基于语境特征构建的模型34-36
- 2.3.3 基于语言学特征构建的模型36-40
- 2.3.4 现有模型的比较40-42
- 2.4 现有模型对本研究的启示42-43
- 2.5 小结43-44
- 第三章 摘要的语类研究综述44-67
- 3.1 语类研究综述44-51
- 3.1.1 理论探索44-48
- 3.1.2 实证研究48-50
- 3.1.3 已有语类研究的不足50-51
- 3.2 摘要研究综述51-64
- 3.2.1 摘要的语类研究51-53
- 3.2.2 摘要的语言特征研究53-64
- 3.3 本研究的概念模型64-66
- 3.4 小结66-67
- 第四章 研究方法67-103
- 4.1 研究问题67
- 4.2 研究设计和研究流程67-69
- 4.3 研究工具69-76
- 4.3.1 语料处理工具69-71
- 4.3.2 特征提取工具71-72
- 4.3.3 模型构建与验证工具72-76
- 4.4 语料76-77
- 4.5 语料的人工标注77-87
- 4.5.1 先导研究79-80
- 4.5.2 第一次完整标注80-83
- 4.5.3 标注员培训83-84
- 4.5.4 第二次完整标注84-86
- 4.5.5 人工标注的信度报告86-87
- 4.6 建模前的语料准备87-89
- 4.7 特征提取89-100
- 4.7.1 形式特征提取89-97
- 4.7.2 意义特征提取97-99
- 4.7.3 语境特征提取99-100
- 4.8 模型的构建与验证100-102
- 4.9 小结102-103
- 第五章 建模前的语步结构和语言特征描写103-149
- 5.1 摘要的语步分析103-114
- 5.1.1 语步类别的总体分布103-104
- 5.1.2 实际结构104-106
- 5.1.3 原型结构106-107
- 5.1.4 衍生原则107-111
- 5.1.5 类型与语类的关系111-114
- 5.2 摘要的语步预测特征114-148
- 5.2.1 形式特征114-119
- 5.2.2 意义特征119-144
- 5.2.3 语境特征144-148
- 5.3 小结148-149
- 第六章 摘要语步自动识别模型的构建与优化149-164
- 6.1 基于概率的初步模型149-155
- 6.1.1 模型识别度的判断指标149-150
- 6.1.2 初步模型的识别度150-152
- 6.1.3 构建初步模型的特征152-155
- 6.2 基于统计和规则的优化模型155-157
- 6.3 优化模型的识别效果157-160
- 6.4 管道模型160-162
- 6.5 模型的应用162-163
- 6.6 小结163-164
- 第七章 结论164-168
- 7.1 研究发现164-167
- 7.1.1 基于大量数据分析印证和完善了已有的语类理论164-165
- 7.1.2 摘要语步的有效预测特征165-166
- 7.1.3 摘要的语步结构自动识别模型166-167
- 7.2 本研究的局限与未来研究方向167-168
- 参考文献168-180
- 附录180-203
本文关键词:英语学术论文摘要语步结构自动识别模型的构建,由笔耕文化传播整理发布。
,本文编号:437195
本文链接:https://www.wllwen.com/wenshubaike/lwzy/437195.html