当前位置:主页 > 科技论文 > 软件论文 >

辅助古诗词研究的唐诗语料库的构建

发布时间:2017-03-24 19:10

  本文关键词:辅助古诗词研究的唐诗语料库的构建,由笔耕文化传播整理发布。


【摘要】:随着自然语言处理技术的研究不断深入,利用计算机来处理中国古代文学经典在国内受到了越来越多的关注。这些方面的研究都依赖于以机器学习为基础的语料库数据驱动。由于实际情况的需要,大多语料库都是基于现代汉语语言的,对于古代文学方面带有标注的语料库资源匮乏,所以建立专有的辅助古代文学研究的语料库尤为重要。本文以《全唐诗》作为标注对象,通过使用自然语言处理技术,结合唐诗句法、格律等特点,构建了一个全唐诗分词及词性标注语料库系统,并实现了人工校对的功能。文章首先分析了唐诗的特有性质,建立了相关知识库,并且利用词频、互信息和共现度等参数来建立全唐诗二字词表。然后结合句法和格律特点对唐诗进行切分。最后使用了隐马尔可夫链进行了词性标注。在此基础上,详细阐述了建立辅助古诗词研究的唐诗语料库系统的构建过程,并通过构建全唐诗系统进行语料库辅助实验。最后对语料库切分和标注的结果进行了分析和总结。
【关键词】:唐诗语料库 统计抽词 人工校对 全唐诗标注
【学位授予单位】:河北大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:I207.22;TP391.1
【目录】:
  • 摘要5-6
  • Abstract6-9
  • 第1章 引言9-15
  • 1.1 研究背景及意义9
  • 1.2 国内外研究现状9-13
  • 1.3 主要研究内容及工作13
  • 1.4 论文组织结构13-15
  • 第2章 全唐诗二字词表和相关知识库的构建15-25
  • 2.1 全唐诗二字词表的构建15-22
  • 2.1.1 全唐诗语料库抽词中 词‖的界定15
  • 2.1.2 典型词的提取方法15-16
  • 2.1.3 基于互信息模型的抽词方法16-19
  • 2.1.4 二字词表的构建19-22
  • 2.2 全唐诗相关知识库的构建22-25
  • 第3章 全唐诗语料库的构建25-38
  • 3.1 全唐诗词的特点25-29
  • 3.1.1 全唐诗副词构词特点25-27
  • 3.1.2 全唐诗词语形态特征27-28
  • 3.1.3 全唐诗中词性的转化类型28-29
  • 3.2 特殊复合词判别标注规则29-30
  • 3.3 词性标注方法30-31
  • 3.4 全唐诗切分标注语料库的构建31-38
  • 3.4.1 熟语料库切分标注规则设计32-35
  • 3.4.2 诗体的判别35
  • 3.4.3 音韵标注35-38
  • 第4章 实验结果与分析38-47
  • 4.1 系统设计38-44
  • 4.1.1 系统的开发环境与语料规模38-39
  • 4.1.2 系统功能39-44
  • 4.2 实验结果44-47
  • 4.2.1 切分结果与分析45-46
  • 4.2.2 标注结果分析46-47
  • 第5章 总结与展望47-49
  • 5.1 工作总结47
  • 5.2 后续工作展望47-49
  • 参考文献49-52
  • 致谢52

  本文关键词:辅助古诗词研究的唐诗语料库的构建,,由笔耕文化传播整理发布。



本文编号:266040

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/266040.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8d4cf***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com