当前位置:主页 > 文艺论文 > 汉语言论文 >

古汉语编年体的人名实体识别与词性标注

发布时间:2018-06-22 08:29

  本文选题:古汉语编年体 + 条件随机场 ; 参考:《复旦大学》2012年硕士论文


【摘要】:自然语言处理是人工智能中的重要领域,不但能够帮助人们从庞大的语言数据中提取出需要的信息,甚至能够理解语法语义并对其做出合理的应答。随着近十年来现代汉语的语言处理研究逐步进展,研究者们已经逐渐能够从现代汉语中抽提出有效的实体信息并进行简单的语法解析。然而古汉语作为中国的传统语言,同样有着智能处理的需要,古汉语文献中蕴藏着大量的历史资料需要被结构化的整理出来。本文以编年体《明史本纪》为范例,首次制作了详细词性标注的古汉语语料,并分别从基于统计与基于规则的角度尝试对其进行名词实体识别与词性标注实验。首先使用了在现代汉语中效率最高的序列模型条件随机场作为统计模型,并且根据古汉语的词法特征设计了多套标签模板以及图模型对语料分别进行了实体识别与词性标注实验。在实验中大部分词性的判断有着良好的结果,而且词性的标注对实体识别的效率有着很好的帮助。从实验结果中,还发现了未登录人名的判断效率要明显高于其他未登录词,从而暗示着编年体人名周围有着很强的规则。随后使用了基于规则的方法尝试对相同的语料进行人名识别。通过观察,发现了编年体裁中人物与官职的关联,并设计了所有含有官职与姓名的句式规则。通过这些规则实现的算法在测试结果中有着良好的表现,最后分析了漏检与错判的姓名的原因和规则中的不足。词性标注实验结果表明古汉语的信息处理不需要进行分词就可以达到较好的效果,但语料库与专有名词库的完整性对结果有着重要的影响。而人名识别的实验反映出编年体中的人名句式十分规则,能够精确的提取出绝大多数姓名,但对于其他体裁的处理则需要更深入的研究。
[Abstract]:Natural language processing is an important field in artificial intelligence. It can not only help people extract the necessary information from the huge language data, but also understand the syntax and semantics and make a reasonable response to it. With the development of language processing in modern Chinese in the past ten years, researchers have been able to extract effective entity information from modern Chinese and make simple grammar analysis. However, as the traditional language of China, ancient Chinese also has the need of intelligent processing. There are a large number of historical materials in ancient Chinese literature that need to be structured out. Taking chronological style Ming Shi Ben Ji as an example, this paper for the first time makes detailed ancient Chinese corpus of part of speech tagging, and tries to carry on the experiment of noun entity recognition and part of speech tagging from the point of view of statistics and rule. Firstly, the conditional random field, which is the most efficient sequential model in modern Chinese, is used as the statistical model. According to the lexical features of ancient Chinese, several sets of tag templates and graph models are designed to carry out entity recognition and part of speech tagging experiments respectively. In the experiment, most of the judgments of part of speech have good results, and the tagging of part of speech is very helpful to the efficiency of entity recognition. From the experimental results it is also found that the judgment efficiency of unrecorded names is obviously higher than that of other unrecorded words which implies that there are strong rules around chronological names. Then a rule-based approach is used to identify the same corpus. Through observation, we find out the relationship between characters and official posts in chronological genre, and design all sentence rules containing official posts and names. The algorithm realized by these rules has a good performance in the test results. Finally, the reasons of missing and wrong names and the shortcomings of the rules are analyzed. The experimental results of part of speech tagging show that the information processing of ancient Chinese can achieve better results without the need of word segmentation, but the integrity of corpus and proper noun database has an important impact on the results. The experiment of human name recognition shows that the name sentence pattern in chronology is very regular, and can extract most names accurately, but the processing of other genres needs more in-depth research.
【学位授予单位】:复旦大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:H109.2

【共引文献】

相关期刊论文 前10条

1 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期

2 陈晓明;梁雄友;;一种实用的PCFG多阶段全局寻优句法分析算法[J];长春理工大学学报(自然科学版);2010年02期

3 马照亭;李志刚;孙伟;印洁;;一种基于地址分词的自动地理编码算法[J];测绘通报;2011年02期

4 王海静;;俗语语料库与语典编纂相关问题的思考[J];辞书研究;2011年04期

5 马创新;李斌;;基于VC++的人工分词及词性标注辅助程序设计与实现[J];电脑编程技巧与维护;2011年01期

6 杜永萍,郑家恒;分词及词性标注一致性校对系统的设计与实现[J];电脑开发与应用;2001年10期

7 张辉,徐健;中国组织机构名自动识别系统的设计与实现[J];电脑开发与应用;2002年01期

8 钱揖丽,郑家恒;中文文本词性自动校对系统的实现[J];电脑开发与应用;2004年01期

9 陈宏彦;陈俊杰;;规则与统计相结合的分词算法[J];电脑开发与应用;2006年08期

10 梁晓弘;杨文安;;分词技术在信息处理中的研究综述[J];电脑知识与技术(学术交流);2007年22期

相关会议论文 前10条

1 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年

2 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年

3 戴祖旭;洪帆;;基于词性标记文法的文本信息隐藏算法[A];第四届中国软件工程大会论文集[C];2007年

4 张霄军;;“长安”的同名地名自动识别与指代消解[A];陕西省社会科学界第二届(2008)学术年会——青年博士论坛“陕西新起点:创新·发展·民生”专题获奖论文选编[C];2008年

5 程月;季娜;洪鹿平;;基于语料统计的以“不”开头双字分词不一致研究[A];第三届学生计算语言学研讨会论文集[C];2006年

6 杜超华;沈威;姚双云;;基于复句语料库的分词系统的研究[A];第三届学生计算语言学研讨会论文集[C];2006年

7 朱丽丽;郑家恒;;一种基于实例学习的人名识别方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

8 吐尔根·依不拉音;阿里甫·库尔班;阿不都热依木;;基于词典的现代维吾尔语词性自动标注系统的研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

9 张霄军;董宇;陈小荷;;基于语料考察的“组合型歧义”与“切分变异”辨析[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

10 钱小飞;侯敏;;中文基本地名识别[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年

相关博士学位论文 前10条

1 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年

2 吴戈;基于数字水印的文本信息隐藏方法的研究[D];长春理工大学;2011年

3 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年

4 张蕾;概念结构及其应用[D];西北工业大学;2001年

5 刘忠;性质语意理论的提出与自然语言理解及其实现的研究[D];华东师范大学;2004年

6 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年

7 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年

8 郑泽芝;基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D];北京语言大学;2005年

9 刘伟;现代汉语代词隐现的动态研究[D];北京语言大学;2005年

10 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年

相关硕士学位论文 前10条

1 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年

2 刘婧一;元代笔记分词理论与实践[D];广西师范学院;2010年

3 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年

4 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年

5 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年

6 王有权;基于Web的智能答疑技术研究与实现[D];南京财经大学;2010年

7 苏俊峰;基于HMM的藏语语料库词性自动标注研究[D];西北民族大学;2010年

8 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年

9 蔡蕊;一种新的搜索引擎分词词典的研究[D];山东大学;2010年

10 郭茜;搜索引擎结果冗余信息消解算法的研究与应用[D];东华大学;2011年



本文编号:2052232

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/2052232.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户10552***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com