当前位置:主页 > 科技论文 > 软件论文 >

基于局部上下文特征的组合的中文真词错误自动校对研究

发布时间:2017-07-30 13:34

  本文关键词:基于局部上下文特征的组合的中文真词错误自动校对研究


  更多相关文章: 真词错误 混淆集 上下文特征 NGram模型


【摘要】:中文的真词错误类似于英文的真词错误,指一个中文词错成另一个词典中的词。提出一种基于混淆集的真词错误发现方法,通过对目标词的局部特征的提取,形成局部左邻接二元、右邻接二元及3个三元特征,然后通过和目标词对应的混淆集中的混淆词来估计二元概率和三元概率。最后提出一种多特征融合的模型,然后利用规则来判断中文文本中的真词错误。将查错结果分为标记错误和更改错误两种类型,采用18组混淆集,构造2万行的测试语料进行实验。实验表明,该方法能有效地发现中文文本中的真词错误,并且能给出真词错误的修改建议。该方法是一种集自动查错和自动纠错于一体的中文文本自动校对方法。
【作者单位】: 江苏科技大学计算机科学与工程学院;中国科学院计算技术研究所智能信息重点实验室;
【关键词】真词错误 混淆集 上下文特征 NGram模型
【基金】:国家自然科学基金项目(91224006,61173063,61035004,61203284,30973713) 国家社科基金重点项目(10AYY003)资助
【分类号】:TP391.1
【正文快照】: 到稿日期:2015-08-27返修日期:2015-12-07本文受国家自然科学基金项目(91224006,61173063,61035004,61203284,30973713),国家社科基金重点项目(10AYY003)资助。1引言英文拼写错误主要分为两种,一种是“非词错误”,另外一种是“真词错误”[1]。英文的非词错误是指一个英文单词

【相似文献】

中国期刊全文数据库 前10条

1 兰杰;在西文状态下阅读中文文本文件[J];电脑知识;1997年02期

2 骆卫华,罗振声,宫小瑾;中文文本自动校对技术的研究[J];计算机研究与发展;2004年01期

3 顾益军,樊孝忠,于江德,李良富;受限领域中文文本主题标引系统研究[J];计算机应用;2004年01期

4 李长荣,阚戈;中文文本2-分类模型在上证指数趋势分析中的应用研究[J];齐齐哈尔大学学报;2005年02期

5 许细清;林世平;;面向中文文本的观点检索技术研究[J];福州大学学报(自然科学版);2010年05期

6 薛丽敏;李殿伟;肖斌;;中文文本情感倾向性五元模型研究[J];通信技术;2011年07期

7 刘开瑛,薛翠芳,郑家恒,周晓强;中文文本中抽取特征信息的区域与技术[J];中文信息学报;1998年02期

8 刘晶茹,王开铸;中文文本自动校对技术研究及系统组成[J];电脑学习;1999年06期

9 刘来e,

本文编号:594482


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/594482.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户44696***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com