当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于统计和特征相结合的查询纠错方法研究

发布时间:2018-11-24 07:59
【摘要】:【目的】提高搜索引擎查询纠错过程中的准确率和召回率,改善用户的检索体验。【方法】提出一种基于统计和特征相结合的查询纠错模型,建立混淆集生成模型,将用户输入的查询关键字生成其对应的混淆集;建立混淆集排序模型,对混淆集中的词条进行排序,选出混淆集中最佳的词条与用户输入的查询关键字对照,以此达到查错纠错的目的。【结果】实验结果证明该模型在搜索引擎查询时具有较好的效果,测试集在110k时的准确率和召回率分别达到92.2%和95%,相对于N-gram纠错模型准确率和召回率分别提高13.6%和8.3%。【局限】该模型中混淆集的生成规则有限、模型的训练需要大量的计算。【结论】本模型能够提高搜索引擎查询的准确率及效率,改善用户的检索体验。
[Abstract]:[objective] to improve the accuracy and recall rate in the process of query correction in search engine, and to improve the retrieval experience of users. [methods] A query error correction model based on statistics and features was proposed, and a confusion set generation model was established. The query keyword input by the user is used to generate its corresponding confusion set. The sorting model of confusion set is established, the items in confusion set are sorted, and the best items in confusion set are compared with the query keywords entered by users. [results] the experimental results show that the model has a good effect on search engine query. The accuracy and recall rate of the test set at 110k are 92. 2% and 95%, respectively. The accuracy and recall rate of the N-gram error correction model are improved by 13.6% and 8.3%, respectively. [conclusion] this model can improve the accuracy and efficiency of search engine query and improve the user's retrieval experience.
【作者单位】: 北方工业大学计算机学院;
【基金】:北京市社会科学基金项目“北京市公共危机事件在网络传播中的演化机制与模型研究”(项目编号:13SHC031) 国家自然科学基金项目“面向维基百科的多粒度一体化信息抽取方法研究”(项目编号:61103112)的研究成果之一
【分类号】:TP391.3

【相似文献】

相关期刊论文 前10条

1 孔敏;方杰;罗斌;;基于图谱归一化编辑距离的聚类算法[J];皖西学院学报;2007年05期

2 康琪;马军;;有向标记根树之间的语义编辑距离[J];模式识别与人工智能;2011年06期

3 廖宏建;杨玉宝;唐连章;;改进的编辑距离计算及其在自动评分中的应用[J];广州大学学报(自然科学版);2012年04期

4 邹旭楷;一种有效的编辑距离和编辑路径求解技术[J];小型微型计算机系统;1996年07期

5 玛依热·依布拉音;米吉提·阿不里米提;艾斯卡尔·艾木都拉;;基于最小编辑距离的维语词语检错与纠错研究[J];中文信息学报;2008年03期

6 赵作鹏;尹志民;王潜平;许新征;江海峰;;一种改进的编辑距离算法及其在数据处理中的应用[J];计算机应用;2009年02期

7 刘坤;杨杰;;基于编辑距离的轨迹相似性度量[J];上海交通大学学报;2009年11期

8 李玉擰;张晨光;;满足度量性质的归一化树编辑距离[J];北京工业大学学报;2011年04期

9 邹旭楷;汉字/字符串编辑距离和编辑路径的有效求解技术[J];计算机研究与发展;1996年08期

10 仲红;张守奇;张瑞;方兴;李江华;;基于编辑距离的远程数据库安全搜索协议[J];计算机技术与发展;2008年09期

相关会议论文 前2条

1 张宇;刘挺;高立琦;车万翔;朱传靖;;基于常问问题集的在线客服实验研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

2 宋锐;林鸿飞;;面向中文新闻领域的移动摘要系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

相关硕士学位论文 前10条

1 刘永强;基于编辑距离图嵌入的图匹配算法研究[D];西安建筑科技大学;2015年

2 杨薇;基于编辑距离的图相似性查询处理[D];燕山大学;2015年

3 韦龙宝;Tai树编辑距离算法的存储优化与树的纵向归并算法[D];中国工程物理研究院;2015年

4 王冬;基于贝叶斯方法和编辑距离的英文语法检查系统设计与实现[D];电子科技大学;2014年

5 王培培;编辑距离快速算法研究[D];东北大学;2011年

6 齐彩霞;基于图编辑距离的图匹配算法研究[D];西安建筑科技大学;2013年

7 和彦莉;基于图编辑距离的画像识别[D];西安电子科技大学;2010年

8 解天书;基于编辑距离算法的中文模糊匹配技术在大数据量环境中的应用[D];湖北大学;2013年

9 王春雨;基于编辑距离的字符串模式匹配算法研究[D];燕山大学;2015年

10 吴波;改进的编辑距离算法的研究及其在电子政务中的应用[D];电子科技大学;2011年



本文编号:2352888

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2352888.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4dadf***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com