当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于多源特征挖掘的查询纠错方法研究

发布时间:2017-09-16 20:22

  本文关键词:基于多源特征挖掘的查询纠错方法研究


  更多相关文章: 查询纠错 混淆集 N-gram模型 Bad Case挖掘


【摘要】:搜索引擎中对用户输入关键字的检错、纠错功能是提高搜索引擎检索效率和改善用户体验的重要方面。搜索引擎查询纠错即为,用户提交查询请求之后,搜索引擎对其提交的字符串采用一定的算法模型进行分析,若发现提交的字符串中存在错误,则搜索引擎会根据用户输入的字符串并结合自然语言处理的一些方法,给出与输入字符串相似的另外一种形式,并据此检索信息返回给用户。当前针对中文搜索引擎的查询纠错主要是基于规则的方法和基于统计的方法,基于规则的方法不考虑查询串上下文信息,而基于统计的方法纠错策略单一,不仅如此,在大数据时代,检错、纠错没有考虑到对海量搜索引擎日志记录的分析、挖掘所释放出来的日志中隐藏的巨大价值。为解决上述难题,本课题以搜索引擎查询日志作为语料结合查询串的统计和特征信息建立查询纠错模型对用户的输入串进行检错和纠错,通过对查询日志进行分析挖掘,来对查询纠错模型的参数进行修正。第一部分基于统计和特征相结合的查询纠错模型,通过对查询关键字中每个词语建立候选词条来得到查询关键字的混淆集,再结合查询串的结构特征和统计特征,即N-gram模型、点击词频、词形相似度、编辑距离等特征建立混淆集排序模型,利用模型从混淆集中选出最佳词条并与原串比较对照,以此来达到查错纠错的目的。第二部分Bad Case挖掘模型是对第一部分提出的查询纠错模型的补充和优化。通过对搜索引擎查询日志的分析来挖掘查询纠错过程中的Bad Case,量化并建立模型让搜索引擎自动挖掘具有这些特征的BadCase,通过分析这些Bad Case来优化查询纠错模型,提高查询纠错的精确度。本文主要创新点如下:提出了一种多源特征相结合的查询纠错模型,该模型综合考虑了N-gram模型、点击词频、词形相似度、编辑距离等查询串的结构特征和统计特征,提高了查询纠错的准确率和召回率。提出了一种Bad Case挖掘模型,通过对日志记录的挖掘改进了查询纠错模型检错和纠错的能力,使得纠错的准确率和召回率更高,用户体验更好。实验结果表明:本研究提出的模型在搜索引擎查询检索时具有较好的效果,测试集在110k时的准确率和召回率达到92.2%、95%,相对于N-gram纠错模型准确率和召回率分别提高了13.6%、8.3%。提高了搜索引擎查询的精确度,并改善了用户的检索体验。
【关键词】:查询纠错 混淆集 N-gram模型 Bad Case挖掘
【学位授予单位】:北方工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
  • 摘要3-4
  • Abstract4-8
  • 第一章 绪论8-13
  • 1.1 研究背景8-9
  • 1.2 国内外研究现状及趋势9-10
  • 1.3 主要研究内容10-11
  • 1.4 论文的组织结构11-13
  • 第二章 相关技术介绍13-19
  • 2.1 搜索引擎概述13-16
  • 2.1.1 搜索引擎原理13-14
  • 2.1.2 搜索引擎的技术目标14-15
  • 2.1.3 搜索引擎存在的问题15-16
  • 2.2 中文查询纠错技术16-19
  • 2.2.1 自然语言处理16-17
  • 2.2.2 自然语言处理与搜索引擎17
  • 2.2.3 中文查询纠错技术17-19
  • 第三章 数据处理19-22
  • 3.1 搜索引擎查询日志处理19
  • 3.2 词典与语料库19-20
  • 3.3 训练集20
  • 3.4 测试集20-22
  • 第四章 查询纠错模型研究22-32
  • 4.1 混淆集生成模型22-24
  • 4.2 混淆集排序模型24-28
  • 4.2.1 N元语法模型25-26
  • 4.2.2 查询词点击率26
  • 4.2.3 N-gram相似度26-27
  • 4.2.4 编辑距离27
  • 4.2.5 混淆集排序模型的建立27-28
  • 4.3 实验过程及结果分析28-32
  • 4.3.1 评测指标28
  • 4.3.2 实验过程及结果分析28-32
  • 第五章 BadCase挖掘模型研究32-39
  • 5.1 日志特征分析32-33
  • 5.2 量化建模33-35
  • 5.2.1 关联关系模型34-35
  • 5.2.2 点击记录模型35
  • 5.3 实验过程及结果分析35-39
  • 5.3.1 实验过程及结果35-38
  • 5.3.2 实验结果分析38-39
  • 第六章 系统的设计与实现39-49
  • 6.1 系统架构设计39-42
  • 6.1.1 工具介绍39-41
  • 6.1.2 系统核心模块41
  • 6.1.3 系统总体设计41-42
  • 6.2 系统实现42-49
  • 6.2.1 Nutch抓取数据42-43
  • 6.2.2 Solr查询检索服务43
  • 6.2.3 查询纠错示例43-49
  • 第七章 总结与展望49-50
  • 参考文献50-53
  • 在学期间的研究成果53-54
  • 致谢54

【相似文献】

中国期刊全文数据库 前10条

1 ;《统计自然语言处理基础》[J];中文信息学报;2005年03期

2 徐继伟;;自然语言处理技术在生物信息学中的应用(英文)[J];生物信息学;2006年01期

3 王挺;麦范金;刘忠;;自然语言处理及其应用前景的研究[J];桂林航天工业高等专科学校学报;2006年04期

4 ;第二届全国少数民族青年自然语言处理学术研讨会召开[J];模式识别与人工智能;2008年05期

5 高精揓;萧国政;姬东鸿;;手持嵌入式系统应用中的自然语言处理关键技术[J];长江学术;2009年02期

6 冯志伟;;自然语言处理中的一些宏观问题之我见[J];中国外语;2009年05期

7 曹佩;;论自然语言处理[J];信息与电脑(理论版);2010年05期

8 邵泽国;;语言科学发展的新分支——自然语言处理[J];电子科技;2013年05期

9 李霞;;面向本科阶段开设的“自然语言处理”课程教学研究[J];福建电脑;2013年07期

10 贺广明;;自然语言处理的六个级别[J];情报杂志;1988年04期

中国重要会议论文全文数据库 前10条

1 马颖华;苏贵洋;;基于概念的自然语言处理[A];第一届学生计算语言学研讨会论文集[C];2002年

2 李生;;哈工大自然语言处理研究进展[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

3 ;哈尔滨工业大学智能技术与自然语言处理研究室简介[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年

4 冯志伟;;自然语言处理中的理性主义和经验主义[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

5 宋柔;;自然语言处理中语言知识的基础性地位[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

6 李文;程华良;彭耀;温明杰;肖威清;张陈斌;陈宗海;;自然语言处理云平台[A];系统仿真技术及其应用学术论文集(第15卷)[C];2014年

7 徐超;毕玉德;;面向自然语言处理的韩国语隐喻知识库构建研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

8 周国栋;孔芳;朱巧明;;指代消解:国内外研究现状及趋势[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

9 ;SWCL-2006组织机构[A];第三届学生计算语言学研讨会论文集[C];2006年

10 张sソ,

本文编号:865224


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/865224.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户268c2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com