当前位置:主页 > 文艺论文 > 汉语言论文 >

以《汉书》为例的中古汉语自动分词

发布时间:2017-09-11 03:05

  本文关键词:以《汉书》为例的中古汉语自动分词


  更多相关文章: 《汉书》 自动分词 词表 注疏 CRF 词汇


【摘要】:中文分词是自然语言处理一项重要的基础性任务。一直以来,中文信息处理的对象主要是现代汉语,在古代汉语的处理方面还远远不足。作为自然语言处理的一个分支,古代汉语信息处理的核心任务是词处理,只有在实现古代汉语分词的基础上才能够真正为古典文献学提供数字化的技术手段。本文结合古代汉语信息处理的特点,以中古史传文献《汉书》为例,从词汇获取的层面和字标注的层面探讨古代汉语分词的多种方法。我们主要进行了以下几个方面的工作: 1.制定针对《汉书》词语的切分细则,归纳分词过程中疑难字串的类别并探讨处理办法。我们参照已有的面向现代汉语的分词规范,结合《汉书》中的用词实例,依据不同词类制定了信息处理用的《汉书》分词规范,并对于同一词类间的不同分词情况进行分析说明。不同于以往分词规范的是,我们通过对比查找以及类推的方法,搜集切分困难和切分不一致的疑难字串,对这一类字串展开专门的讨论,并将这些字串按照构成结构进行分类。以其中一类为例,给出了处理疑难字串分词的统计依据和具体操作办法。 2.通过多种渠道获取分词词表,收集了三大类的词表。一是地名表、人名表、以及先秦词表这类可以直接获取的词表;二是通过双字互信息阈值筛选所得词表,通过对文本双字互信息值的计算获取,经反复实验,得出最适合《汉书》分词的互信息阈值约为7.5;三是注疏词表获取,主要利用注疏文献《汉书补注》在实现注疏对齐的基础上,根据基于字符串匹配的方法从注疏文献中获取词汇信息,生成注疏词表。同以往的注疏词表获取不同的是,我们对初步获得的词条添加后处理过程,利用第一类词表中的已登录词切分过长字串,提高词表精度,更为简单快捷。最后,我们添加了对三类词表的分词效果比较,发现就单个词表分词而言,注疏词表效果最为显著,F值达到83.3%。对于多个词表综合的分词,实验结果表明,最优的词表组合是专有名词词表(人名表和地名表)和注疏词表,其分词的F值超过了85%,比baseline提高了近8个百分点。因此,我们认为,基于词表的分词,注疏词表和专名词表是最优的分词词表组合。 3.选取不同语言特征,用条件随机场模型进行基于字标注的分词。在《汉书》的实际分词中,选取合适的特征模板,并添加一些相关的语言特征用以辅助分词,例如字符分类,声、韵等,并首次尝试加入上古音、上古韵这两大特征并与中古音、中古韵的分词效果进行对比。分组实验结果表明以1W+2(上下文窗口长度为1,2个字符同现的模板)为基础的分词模板效果普遍较好,增加了字符分类(C1)和上古音(C5)的1W+2+C1’5’模板在特征二元同现(’表示特征的二元同现)的情况下分词效果最优,F值可以达到94.4%。 4.在实现汉书分词的基础上,对于《汉书》的词汇概貌从词长、高频词、成语、特征词等多个方面做了简要的描述和统计分析。统计结果表明,《汉书》中单音节词占比仅为24.24%,但在使用频率远高于多音节词,用例占比约为80.29%,说明《汉书》用词仍以单音节词为主。通过比较《汉书》与25部先秦文献以及《人民日报》1998年1月语料的平均词长,也印证了汉语从单音节词向多音节词的发展规律。《汉书》高频词的统计结果证明了文中关于《汉书》高频字表即高频单字词表的推测;四字成语的统计为考察部分成语来源提供了参考依据;“匈奴”、“汉王”、“单于”等时代特征词的成功抽取也正确地反映了《汉书》的时代面貌。
【关键词】:《汉书》 自动分词 词表 注疏 CRF 词汇
【学位授予单位】:南京师范大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:H087
【目录】:
  • 摘要3-5
  • Abstract5-9
  • 第1章 绪论9-16
  • 1.1 选题理由及意义9-10
  • 1.2 中文自动分词现状10-13
  • 1.3 面向古代汉语的自然语言处理13-14
  • 1.4 本文研究内容概述14-16
  • 第2章 《汉书》词语切分16-31
  • 2.1 语料分析16-17
  • 2.1.1 语料来源和说明16
  • 2.1.2 《汉书》的用字统计16-17
  • 2.2 中古汉语复音词汇特征17-19
  • 2.2.1 中古的时代界定17
  • 2.2.2 中古复音词概貌17-18
  • 2.2.3 中古复音词判定18-19
  • 2.3 面向《汉书》的分词细则19-31
  • 2.3.1 现有规范处理古代汉语分词的不足19-20
  • 2.3.2 《汉书》分词原则20-26
  • 2.3.3 疑难字串处理办法讨论26-31
  • 第3章 基于词汇获取的分词处理31-42
  • 3.1 获取词表词31-33
  • 3.1.1 先秦沿袭词表分词31-32
  • 3.1.2 人名地名表分词32-33
  • 3.2 互信息获取词汇33-34
  • 3.2.1 统计量的选取33
  • 3.2.2 互信息分词结果33-34
  • 3.3 注疏文献获取词汇34-39
  • 3.3.1 注疏对齐34-37
  • 3.3.2 注疏分词的实现37-39
  • 3.3.3 注疏分词结果39
  • 3.4 基于不同词表的分词对比39-42
  • 3.4.1 各词表分词结果39-40
  • 3.4.2 组合词表分词40-41
  • 3.4.3 存在问题41-42
  • 第4章 基于字标注的分词处理42-49
  • 4.1 条件随机场简介42-43
  • 4.1.1 模型概述42
  • 4.1.2 CRF原理42-43
  • 4.1.3 工具包使用43
  • 4.2 标注方法43-44
  • 4.2.1 由字构词43
  • 4.2.2 汉书四词位分词43-44
  • 4.3 特征及模板选择44-45
  • 4.4 分词实验45-49
  • 4.4.1 基于简单的字面信息的分词结果45-46
  • 4.4.2 基于复杂语言特征的分词结果46-49
  • 第5章 结论与展望49-53
  • 5.1 研究的总结49
  • 5.2 汉书词汇概貌49-52
  • 5.2.1 词长统计49-50
  • 5.2.2 高频词统计50-51
  • 5.2.3 四字成语统计51
  • 5.2.4 时代特征词统计51-52
  • 5.3 存在问题及展望52-53
  • 附录A53-54
  • 参考文献54-59
  • 致谢59-60

【参考文献】

中国期刊全文数据库 前10条

1 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期

2 陈长书;;从《国语》字词关系看先秦文献中的分词问题[J];古籍整理研究学刊;2011年05期

3 饶高琦;修驰;荀恩东;;语料库自然标注信息与中文分词应用研究(英文)[J];北京大学学报(自然科学版);2013年01期

4 徐紫云;;古代汉语标注语料库的建设与应用[J];华东交通大学学报;2005年06期

5 徐紫云;徐雪松;;从自动分词角度看先秦与现代汉语词汇区别[J];华东交通大学学报;2009年06期

6 李晋霞;;《现代汉语词典》的词义透明度考察[J];汉语学报;2011年03期

7 杨振兰;试论词义与语素义[J];汉语学习;1993年06期

8 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期

9 黄德根;焦世斗;周惠巍;;基于子词的双层CRFs中文分词[J];计算机研究与发展;2010年05期

10 佟晓筠;宋国龙;刘强;张俐;姜伟;;中文分词及词性标注一体化模型研究[J];计算机科学;2007年09期

中国博士学位论文全文数据库 前1条

1 宋琳;基于《汉语大词典》语料库的魏晋新词语研究[D];山东大学;2011年



本文编号:828218

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/828218.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bba2b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com