基于注疏注音信息的词性自动校正
本文关键词:基于注疏注音信息的词性自动校正
【摘要】:为了提高先秦文献词性标注的精确率,提出一种利用注疏文献的注音信息来进一步校正词性标注结果的方法。《春秋左传正义》中对破读字音有注释,且有较为规范的注音体例,在标注了《广韵》中多音字词性的基础上,通过比对注音,确定《左传》中某多音字的读音,进而确定词性。实验一共检查了词性标注精确率达90%的《左传》中1231个含多音字的句子,涉及到单音节词词型423个,正确校正了41个词型共92处错误。对古籍校勘及古籍信息处理有较高价值。
【作者单位】: 南京师范大学文学院;
【关键词】: 《春秋左传正义》 词性标注 语言信息
【基金】:国家社科基金重大招标项目“汉语史语料库建设研究”(编号:10&ZD117) 江苏省高校哲学社会科学重点研究基地重大项目“先秦文献词汇知识挖掘”(编号:2010JDXM023) 江苏高校优势学科建设工程资助项目,受到江苏省哲学社会科学基金项目(编号:10YYB007) 江苏省普通高校研究生科研创新计划(编号:CXLX12_0357)的资金资助
【分类号】:H111
【正文快照】: 注疏文献是学习和研究经书古籍的重要知识资源。注,是对经书字句的注解,又称传、笺、解、章句等;疏,是对注的注解,又称义疏、正义、疏义等。注、疏的内容涉及到经籍中文字正假、语词意义、音读正讹、语法修辞,以及名物、典制、史实等,信息十分丰富。由于汉语同音词的增加,先
【参考文献】
中国期刊全文数据库 前1条
1 石民;李斌;陈小荷;;基于CRF的先秦汉语分词标注一体化研究[J];中文信息学报;2010年02期
【共引文献】
中国期刊全文数据库 前6条
1 陈顺强;;彝文自动分词技术研究[J];中文信息学报;2011年03期
2 徐润华;陈小荷;;一种利用注疏的《左传》分词新方法[J];中文信息学报;2012年02期
3 张颖杰;李斌;陈家骏;陈小荷;;基于词典信息的先秦汉语全文词义标注方法研究[J];中文信息学报;2012年03期
4 邱冰;皇甫娟;周新运;;汉语专书词汇研究工作流程的信息化及应用[J];计算机应用;2012年S1期
5 于江德;周宏宇;余正涛;;基于单个词语特征模板的汉语词性标注[J];山西大学学报(自然科学版);2011年04期
6 马创新;陈小荷;;基于XML的《论语》与其注疏文献对齐语料库的知识表示[J];图书情报知识;2013年01期
中国重要会议论文全文数据库 前2条
1 徐润华;陈小荷;;一种利用注疏的《左传》分词新方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 张颖杰;李斌;陈家骏;陈小荷;;基于词典的半指导学习古汉语全文词义标注[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
【二级参考文献】
中国期刊全文数据库 前3条
1 尉迟治平;计算机技术和汉语史研究[J];古汉语研究;2000年03期
2 宋彦;蔡东风;张桂平;赵海;;一种基于字词联合解码的中文分词方法[J];软件学报;2009年09期
3 邱冰;皇甫娟;;基于中文信息处理的古代汉语分词研究[J];微计算机信息;2008年24期
【相似文献】
中国期刊全文数据库 前10条
1 李海波;;手工分词和词性标注的问题[J];现代语文(语言研究版);2010年07期
2 李琼;李志;;基于词性信息自动识别和标注非分句[J];长春工程学院学报(社会科学版);2011年01期
3 潘彦彩;;《现代汉语词典》(第5版)词性标注指瑕[J];语文知识;2011年01期
4 宛志文;;虚词词性标注的统一性和释义方式[J];辞书研究;1985年02期
5 程荣;;汉语辞书中词性标注引发的相关问题[J];中国语文;1999年03期
6 苏宝荣;汉语语文辞书的词性标注及其对释义的影响[J];辞书研究;2002年02期
7 赛麦提·麦麦提明;;现代维吾尔语同形词词性自动标注探析[J];语言与翻译;2006年03期
8 ;要目回溯[J];辞书研究;2007年01期
9 王伟丽;;浅谈外向型汉语学习词典的词性标注[J];语文学刊;2009年08期
10 马楠;;词典词性标注的单位问题[J];辞书研究;2009年03期
中国重要会议论文全文数据库 前10条
1 苏新春;王惠;卢伟清;秦少康;;语言知识库的内化与细化——完善词义知识库之设想[A];第六届汉语词汇语义学研讨会论文集[C];2005年
2 赵大明;;关于《现代汉语规范字典》的词性标注[A];中国辞书论集1999[C];1999年
3 邢富坤;宋柔;;自动词性标注中语法因素和词汇因素对英汉语的不同影响[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 陈文亮;朱靖波;吕学强;姚天顺;;词性标注规则的获取和优化[A];第一届学生计算语言学研讨会论文集[C];2002年
5 林红;胡欣;;最大熵模型的应用[A];新世纪气象科技创新与大气科学发展——中国气象学会2003年年会“地球气候和环境系统的探测与研究”分会论文集[C];2003年
6 郭锐;;语文词典的词性标注问题[A];中国辞书学文集[C];1998年
7 毛永波;;辞书的词义解释和词性标注[A];中国辞书学文集[C];1998年
8 李红印;;颜色词的收词、释义和词性标注[A];中国辞书论集2001[C];2001年
9 钱揖丽;张虎;;汉语分词及词性标注自动校验方法研究[A];第一届学生计算语言学研讨会论文集[C];2002年
10 吴金星;长青;;蒙古语语料库基本加工规范初探[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
中国重要报纸全文数据库 前10条
1 记者 高敬云;我国少数民族语言信息化进程提速[N];中国民族报;2004年
2 王铁琨;中国辞书的“强国梦”还有多远[N];中华读书报;2006年
3 教育部语言文字信息管理司司长李宇明;语言文字工作应当与时俱进[N];中国教育报;2001年
4 陆文军;让网络语言留在网络[N];河北经济日报;2005年
5 陆文军;让网络语言留在网络[N];中国消费者报;2005年
6 李冀;南京市区普通话使用率每年增长21.8%[N];南京日报;2007年
7 沈锡伦;语言单位的搭配关系[N];语言文字周报;2007年
8 王海霞;速记:将声音变成文字的朝阳产业[N];中华新闻报;2008年
9 记者 葛素表 周润健;汉字欲“整形”,引发民众诸多担心[N];新华每日电讯;2009年
10 本报记者 柯进;规范华语使用 弘扬中华文化[N];中国教育报;2010年
中国博士学位论文全文数据库 前8条
1 郭永辉;英汉机器翻译系统关键技术研究[D];解放军信息工程大学;2006年
2 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
3 屈刚;英汉双语短语对齐[D];上海交通大学;2007年
4 朱聪慧;汉英动词次范畴相关技术的研究[D];哈尔滨工业大学;2009年
5 杨建国;基于动态流通语料库(DCC)的汉语熟语单位研究[D];北京语言大学;2005年
6 韩秀娟;基于动态流通语料库的通用词语用字研究及字词语关系考察[D];北京语言大学;2007年
7 宋刚;普通话儿童早期动词习得:范畴、论元结构与句法线索[D];北京语言大学;2009年
8 王洁;汉语中介语偏误的计算机处理方法研究[D];北京语言大学;2008年
中国硕士学位论文全文数据库 前10条
1 樊立三;现代汉语语文辞书词性标注研究[D];鲁东大学;2006年
2 图格木勒;蒙古语语言资源库建设相关技术研究[D];内蒙古大学;2007年
3 齐艳艳;《现代汉语词典》单音节副词词性标注、释义及条目分立考察[D];北京语言大学;2004年
4 刘曼;对外汉语教学中的词类体系和词性标注[D];辽宁师范大学;2004年
5 曾玉洁;价格标示与价格词语研究[D];四川大学;2005年
6 袁伟;现代汉语词典标注词性之比较与批评[D];苏州大学;2006年
7 牛书田;对外汉语教材中的词汇处理分析研究[D];山东大学;2008年
8 陆杨;从“Fairy Tale Model”解读人类认知的原型范畴[D];黑龙江大学;2008年
9 谢小凤;现代诗歌节奏的计算机自动分析[D];广西民族大学;2012年
10 刘亚杰;名、动、形词类标注分岐的考察与处理[D];黑龙江大学;2005年
,本文编号:618212
本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/618212.html