当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于多重索引模型的大规模词典近似匹配算法

发布时间:2018-04-19 06:39

  本文选题:模式匹配 + 近似匹配 ; 参考:《计算机研究与发展》2008年10期


【摘要】:编辑器的拼写校正、搜索引擎的查询纠正、光学字符识别的结果检查等领域都用到词典近似匹配算法.传统单索引模式很难在高性能的前提下保证高召回率.词典越大问题越严重.提出了大规模词典近似匹配的多重索引模型,首先将背景词典根据单词长度划分为若干子词典,对各子词典按照一定策略建立unigram,bigram,trigram,quadgram中的一种或若干种索引,当查找用户模式P的近似匹配时,根据模式P检索特定N-gram索引链,从而得到候选近似匹配集合C,对C中每一个单词W,计算P与W的编辑距离即可输出P的所有最终匹配结果R.实验表明,基于多重索引模型的词典近似匹配算法能够大幅度减少候选近似匹配结果的数量,从而提高词典近似匹配的速度.
[Abstract]:Dictionary approximate matching algorithm is used in spelling correction of editor, query correction of search engine and result checking of optical character recognition.It is difficult for traditional single index mode to guarantee high recall rate on the premise of high performance.The bigger the dictionary, the more serious the problem.A multi-index model for approximate matching of large-scale dictionaries is proposed. Firstly, the background dictionaries are divided into several sub-dictionaries according to the word length, and one or more indexes in unigram-bigram-trigram-quadgram are established for each sub-dictionary according to a certain strategy.When the approximate matching of user pattern P is searched, a specific N-gram index chain is retrieved according to pattern P, and the candidate approximate matching set C is obtained. For each word in C, the editing distance between P and W can be calculated and all final matching results of P can be outputted.The experimental results show that the dictionary approximate matching algorithm based on multi-index model can greatly reduce the number of candidate approximate matching results and improve the speed of dictionary approximate matching.
【作者单位】: 中国科学院计算技术研究所;北京市计算中心;
【基金】:国家“九七三”重点基础研究发展规划基金项目(2004CB318109,2007CB311100) 国家“八六三”高技术研究发展计划基金项目(2006AA010105,2007AA01Z416)~~
【分类号】:TP301.6

【共引文献】

相关期刊论文 前1条

1 周之诚;;用户查询意图的获取与采访质量优化[J];图书馆学研究;2009年12期

相关会议论文 前1条

1 龚才春;黄玉兰;许洪波;白硕;;基于多重索引模型的大规模词典近似匹配算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

【相似文献】

相关期刊论文 前10条

1 高培焕,张大智;基于二维模式匹配的图像检索快速算法[J];辽宁师范大学学报(自然科学版);2002年02期

2 廖俊必,袁中凡,徐_g;图像匹配中噪声分析和预处理(英文)[J];光电工程;2002年06期

3 李德华;波形模式匹配的一种加速算法[J];信息与控制;1982年04期

4 张晓华,陈宏钧,余四清,王卓军;一种新型模糊控制器在加热炉上的应用[J];冶金自动化;1991年05期

5 唐朝京,吴自强,王跃科,张南,周代英,王成友;一种基于改进的SEVQ匹配算法的汉语全音节语音识别系统[J];国防科技大学学报;1997年03期

6 应向荣;入侵检测(IDS)技术的发展[J];信息技术与标准化;2002年12期

7 马志柔;叶屹;;一种有效的多关键词词频统计方法[J];计算机工程;2006年10期

8 黄健斌;姬红兵;孙鹤立;;多源Web对象与关系数据的集成[J];西安电子科技大学学报;2007年01期

9 柳景超;周立兵;;一个改进的入侵检测系统模型[J];计算机与数字工程;2007年01期

10 李昌清;李艳霞;李胜利;王剑;;基于动态异构的Web信息集成网页分析方法[J];计算机应用研究;2007年12期

相关会议论文 前10条

1 龚才春;黄玉兰;许洪波;白硕;;基于多重索引模型的大规模词典近似匹配算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

2 钱颖;聂俊岚;刘国华;郜时红;;基于全集的复杂模式匹配[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年

3 孙江明;李通化;;基于模式匹配的蛋白质结构形状预测[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年

4 谢丽聪;;基于Matchmaking方法的模式匹配[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

5 谭茂金;张庚骥;石耀霖;;阵列电法测井的垂直模式匹配理论研究[A];中国地球物理学会第二十四届年会论文集[C];2008年

6 陈建云;王跃科;刘辉;;基于相关分析和模式匹配的多普勒频率测量方法[A];第三次全国会员代表大会暨学术会议论文集[C];2002年

7 胡凤国;;一个简单人机对话系统的实现方法[A];第一届学生计算语言学研讨会论文集[C];2002年

8 朱艳;许家s,

本文编号:1771992


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1771992.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户871b8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com