《左传》《史记》同事异文自动发现及分析
发布时间:2017-08-29 06:17
本文关键词:《左传》《史记》同事异文自动发现及分析
更多相关文章: 句子相似度 同事异文识别 编辑距离 改进操作权重 事件信息标注
【摘要】:古籍中存在着十分丰富的异文现象,异文的存在对于校勘学、文字学、词汇学、语法学、训诂学等方面的研究都有重要作用。其中,同事异文是异文的一个特例,指描述同样历史事件的不同文字。然而,由于古籍文本数据的浩繁,传统的使用人力手工查找异文(包括同事异文)的办法在数量和质量上都已无法满足进一步研究的需要,因此亟待借助计算语言学方法解决这一问题。 基于此,本文以《左传》和《史记》为实验语料,利用并改进编辑距离句子相似度计算算法,进行同事异文的自动识别及分析,其具体内容包括: 1.在古籍异文研究方面,对非版本异文的研究现状做了介绍,并指出人工查找同事异文的繁杂困难之处,因而提出利用计算语言学方法中的句子相似度计算算法,对同事异文进行自动发现。 2.在汉语句子相似度计算方面,总结了国内外不同种句子相似度计算方法,并指出古汉语句子相似度计算的难点所在,同时重点介绍了编辑距离方法的计算原理,研究现状和算法本身存在的主要问题。 3.在同事异文自动发现方面,本文首先基于经典编辑距离算法对实验语料进行了同事异文自动发现,实验结果并不理想。由此,本文设计了一种结合改进编辑距离以及事件信息标注的计算算法,对实验语料进行了再次实验,实验结果大幅改善。其中,实验的主要改进是,在编辑距离算法内部改进了编辑操作、字词操作的权重设置,在编辑距离算法外部,利用人名、地名及年份数据库对语料进行了人物、地点、时间的事件信息标注,并加权结合两方面结果进行最终的句子相似度计算。 最后,本文对《左传》《史记》同事异文自动发现结果进行了分类整理和简要分析,并以此为依据,考察了两部文献的语言特色及同事异文自动识别的主要缺陷,为今后更大规模的古汉语文献深度处理和自动挖掘进行了初步尝试。
【关键词】:句子相似度 同事异文识别 编辑距离 改进操作权重 事件信息标注
【学位授予单位】:南京师范大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:H087
【目录】:
- 摘要3-4
- ABSTRACT4-9
- 第一章 绪论9-17
- 1.1 课题来源9-11
- 1.1.1 同事异文的定义9
- 1.1.2 同事异文的检索技术9-10
- 1.1.3 本文的实验语料来源10-11
- 1.2 研究意义11-12
- 1.2.1 探究古籍本身的校勘意义11
- 1.2.2 语言学研究的训诂意义11-12
- 1.2.3 古籍数字化处理的时代意义12
- 1.3 研究现状12-15
- 1.3.1 古籍非版本异文的研究现状12-14
- 1.3.2 句子相似度计算的研究现状14-15
- 1.4 研究内容15-16
- 1.5 组织结构16-17
- 第二章 汉语句子相似度算法研究17-26
- 2.1 句子相似度定义17
- 2.2 汉语句子相似度计算难点17-19
- 2.2.1 汉语句子信息处理难点18
- 2.2.2 古代汉语语料处理难点18-19
- 2.3 常用的汉语句子相似度算法19-23
- 2.3.1 基于向量空间模型的TF-IDF方法19-20
- 2.3.2 基于语义特征的语义词典方法20-21
- 2.3.3 基于句法特征的依存树方法21-22
- 2.3.4 算法比较22-23
- 2.4 编辑距离算法研究23-26
- 2.4.1 算法简介23
- 2.4.2 算法现状23-25
- 2.4.3 存在的主要问题25-26
- 第三章 基于经典编辑距离算法的同事异文发现26-41
- 3.1 实验语料介绍26
- 3.2 实验语料预处理及分析26-31
- 3.2.1 断句处理26-27
- 3.2.2 句珠对抽取27-29
- 3.2.3 句珠对抽取原则29-30
- 3.2.4 句珠对分布特点30-31
- 3.3 经典编辑距离阈值计算算法31-35
- 3.3.1 实验流程31-32
- 3.3.2 算法实验32-34
- 3.3.3 实验结果分析34-35
- 3.4 经典编辑距离语义相似度计算算法35-41
- 3.4.1 相似度转换35-36
- 3.4.2 实验流程36
- 3.4.3 算法实验36-38
- 3.4.4 实验结果分析38-41
- 第四章 基于改进编辑距离算法及事件信息标注的同事异文发现41-54
- 4.1 改进操作权重的编辑距离算法41-46
- 4.1.1 编辑操作基础权重设置41-42
- 4.1.2 字词操作单元权重设置42-44
- 4.1.3 改进算法实验44-46
- 4.1.4 实验结果分析46
- 4.2 事件信息标注46-49
- 4.2.1 事件信息标注定义46-47
- 4.2.2 事件信息数据库47-48
- 4.2.3 标注实验48-49
- 4.2.4 存在的问题49
- 4.3 基于改进编辑距离算法以及事件信息标注的同事异文发现49-54
- 4.3.1 改进编辑距离语义相似度公式50
- 4.3.2 改进算法实验50-52
- 4.3.3 实验结果分析52-54
- 第五章 同事异文自动识别结果分析54-60
- 5.1 同事异文自动识别的几种类型54-57
- 5.1.1 用字层面54-55
- 5.1.2 用词层面55-56
- 5.1.3 用句层面56-57
- 5.2 《左传》和《史记》的语言风格分析57-58
- 5.2.1 《左传》的省用现象57
- 5.2.2 《史记》复音词的增多57-58
- 5.2.3 《史记》的语义复现现象58
- 5.3 本文工作的不足之处58-60
- 5.3.1 操作权重阈值比较主观58-59
- 5.3.2 大量噪声数据难以剔除59
- 5.3.3 事件信息标注没有消歧59-60
- 总结与展望60-61
- 附录61-63
- 参考文献63-66
- 致谢66
【参考文献】
中国期刊全文数据库 前10条
1 罗舒;;《三朝北盟会编》异文类型研究[J];编辑之友;2012年04期
2 吕学强,任飞亮,黄志丹,姚天顺;句子相似模型和最相似句子查找算法[J];东北大学学报;2003年06期
3 杨晓;;《左传》语言特点的探讨[J];大众文艺;2010年13期
4 赵巾帼;徐德智;罗庆云;;汉语句子相似度计算方法比对之研究[J];福建电脑;2007年10期
5 王彦坤;;略论古书异文的应用[J];暨南学报(哲学社会科学);1987年01期
6 赵臻;吴宁;宋盼盼;;基于多特征融合的句子语义相似度计算[J];计算机工程;2012年01期
7 赵作鹏;尹志民;王潜平;许新征;江海峰;;一种改进的编辑距离算法及其在数据处理中的应用[J];计算机应用;2009年02期
8 施聪莺;徐朝军;杨晓江;;TFIDF算法研究综述[J];计算机应用;2009年S1期
9 牛永洁;张成;;多种字符串相似度算法的比较研究[J];计算机与数字工程;2012年03期
10 李彬,刘挺,秦兵,李生;基于语义依存的汉语句子相似度计算[J];计算机应用研究;2003年12期
,本文编号:751743
本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/751743.html