一种基于判别式重排序的拼写校正方法
本文选题:拼写校正 切入点:判别模型 出处:《软件学报》2008年03期 论文类型:期刊论文
【摘要】:提出一种基于判别模型的拼写校正方法.它针对已有拼写校正系统Aspell的输出进行重排序,使用判别模型Ranking SVM来改进其性能.将现今较为成熟的拼写校正技术(包括编辑距离、基于字母的n元语法、发音相似度和噪音信道模型)以特征的形式整合到该模型中来,显著地提高了基准系统Aspell的初始排序质量,同时性能也超过了一些商用系统(如Microsoft Word 2003)的拼写校正模块.此外,还提出了一种在搜索引擎查询日志链中自动抽取拼写校正训练对的方法.基于这种方法训练的模型获得了基于人工标注数据所得结果相近的性能,它们分别将基准系统的错误率降低了32.2%和32.6%.
[Abstract]:A new spelling correction method based on discriminant model is proposed, which reorders the output of the existing spelling correction system (Aspell), and uses the discriminant model Ranking SVM to improve its performance. The alphabetical n-ary syntax, pronunciation similarity and noise channel model are integrated into the model in the form of features, which significantly improves the initial sorting quality of the benchmark system Aspell. It also outperforms the spelling correction modules of some commercial systems, such as Microsoft Word 2003. A method of automatically extracting spell correction training pairs in search engine query log chain is also proposed. The model based on this method can obtain similar results based on manual tagged data. They reduced the error rate of the benchmark system by 32.2% and 32. 6 respectively.
【作者单位】: 天津大学计算机科学与技术学院 天津大学计算机科学与技术学院 香港科技大学计算机系 微软亚洲研究院
【基金】:Supported by the National Natural Science Foundation of China under Grant No.60603027 (国家自然科学基金) the Science-Technology Development Project of Tianjin of China under Grant No.04310941R (天津市科技发展计划) the Applied Basic Research Project of Tianjin of China under Grant No.05YFJMJC11700 (天津市应用基础研究计划)
【分类号】:TP301.6
【共引文献】
相关期刊论文 前2条
1 张仰森;俞士汶;;文本自动校对技术研究综述[J];计算机应用研究;2006年06期
2 张仰森;曹元大;俞士汶;;基于规则与统计相结合的中文文本自动查错模型与算法[J];中文信息学报;2006年04期
相关会议论文 前1条
1 Zhang Yangsen~(1,2) Yu Shiwen~1 Huang Gaijuan~2 1.Institute of Computational Linguistics,Peking University,Beijing,100871 2.Beijing Information Technology Institute,Beijing,100101;The Error-correcting Suggestion Candidates Producing Algorithm and Its Realization[A];Proceedings of 6th International Symposium on Test and Measurement(Volume 9)[C];2005年
相关硕士学位论文 前1条
1 潘阿荣;基于Windows Mobile的智能手机汉字输入法研究[D];哈尔滨工业大学;2006年
【相似文献】
相关期刊论文 前10条
1 张淼;韩光;钟映春;韦丽兴;;基于脉冲耦合神经网络的光驱物镜导线品质检验方法的研究[J];仪器仪表学报;2011年07期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
相关会议论文 前2条
1 李思;张浩;徐蔚然;郭军;;基于合并模型的中文文本情感分析[A];第五届全国信息检索学术会议论文集[C];2009年
2 白旭;曾胜男;杜豫川;孙立军;;上海市高架交通监控系统[A];第一届中国智能交通年会论文集[C];2005年
相关博士学位论文 前4条
1 何国经;红外成像系统性能评估方法研究[D];西安电子科技大学;2008年
2 李娜;面向人机交互的单目视频三维人体姿态估计研究[D];浙江大学;2008年
3 万怀宇;社会网络中基于链接的分类问题研究[D];北京交通大学;2012年
4 何川;分布式信息检索中的若干重要问题研究[D];北京邮电大学;2012年
相关硕士学位论文 前10条
1 张扬;拼写校正技术在信息检索和文本处理领域的应用[D];天津大学;2007年
2 蒋琳;稀疏双边判别模型及其在图像分类中的应用[D];南京航空航天大学;2010年
3 向宇;基于语义上下文建模的图像语义自动标注研究[D];复旦大学;2010年
4 郑侠;福建省地质灾害调查数据库的数据挖掘与滑坡早期预警模型实现[D];中国地质大学(北京);2010年
5 李爱华;软件风险管理模型及实证研究[D];湖南工业大学;2009年
6 李浩;基于数字图像处理技术的烤烟烟叶自动分组模型研究[D];华中农业大学;2007年
7 李志;牛胴体眼肌切面分级信息检测自动化研究[D];吉林大学;2008年
8 曾恒;基于视频检测的城市道路交通拥挤状态判别方法研究[D];重庆大学;2010年
9 马俊雷;基于CT图像的周围型非小细胞肺癌分型诊断模型研究[D];哈尔滨理工大学;2010年
10 周波;面向问答系统的实体识别与分类研究[D];沈阳航空工业学院;2009年
,本文编号:1624784
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1624784.html