当前位置:主页 > 科技论文 > 搜索引擎论文 >

搜索引擎纠错算法研究与纠错Bad Case挖掘

发布时间:2016-07-15 03:04

  本文关键词:搜索引擎纠错算法研究与纠错Bad Case挖掘,由笔耕文化传播整理发布。


《大连理工大学》 2013年

搜索引擎纠错算法研究与纠错Bad Case挖掘

孙善禄  

【摘要】:搜索引擎自动纠错功能对提高检索效率和检索精度具有至关重要的意义,并且良好的纠错功能可以为用户提供更好的人机交互体验。本文根据中文语言自身的特点,研究了基于N-gram统计语言模型的具体纠错方法,详细介绍了N-gram统计语言模型的建立过程,并通过数据平滑技术对N-gram模型进行了平滑优化处理。本文提出了一种针对纠错结果Bad Case的机器挖掘分析方法,该方法通过分析用户点击行为日志以及错误检索词的一些特征属性,来挖掘纠错Bad Case。根据统计学原理,统计分析用户对纠错词的点击行为情况,量化建模判断系统给出纠错词是否为错误纠错词;统计分析用户输入的前后检索词之间的特征属性关系,量化建模判断用户输入的前词是否为系统未进行纠错的输入错误检索词。通过平滑优化N-gram统计语言模型以及对纠错Bad Case的挖掘,可以进一步完善搜索引擎的自动纠错功能,提高自动纠错结果的准确率。最终通过实验验证了平滑优化N-gram统计语言模型以及挖掘纠错Bad Case之后的良好纠错效果。实现了对中文输入关键词良好的自动纠错功能,提高了搜索引擎的搜索精度和召回率。

【关键词】:
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3
【目录】:

下载全文 更多同类文献

CAJ全文下载

(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

CAJViewer阅读器支持CAJ、PDF文件格式


【参考文献】

中国期刊全文数据库 前10条

1 王达;崔蕊;;数据平滑技术综述[J];电脑知识与技术;2009年17期

2 苏菲,王丹力,戴国忠;基于标记的规则统计模型与未登录词识别算法[J];计算机工程与应用;2004年15期

3 刘丹;方卫国;周泓;;二元语法中文分词数据平滑算法性能研究[J];计算机工程与应用;2009年17期

4 邢永康;马少平;;统计语言模型综述[J];计算机科学;2003年09期

5 张仰森,曹元大,徐波;基于统计的纠错建议给出算法及其实现[J];计算机工程;2004年11期

6 王林;搜索引擎的原理和发展[J];图书馆理论与实践;2004年04期

7 张仰森;中文校对系统中纠错知识库的构造及纠错建议的产生算法[J];中文信息学报;2001年05期

8 郑实福,刘挺,秦兵,李生;自动问答综述[J];中文信息学报;2002年06期

9 于勐,姚天顺;一种混合的中文文本校对方法[J];中文信息学报;1998年02期

10 许文霞;;齐普夫定律与中文词频分布机理[J];情报科学;1986年01期

【共引文献】

中国期刊全文数据库 前10条

1 游玉祥;;基于语言学视角的网络环境下交互式外语教学[J];安徽工业大学学报(社会科学版);2011年01期

2 张政;;烟台方言特点浅析[J];安徽文学(下半月);2008年10期

3 王丽芳;;浅谈荷塘月色的语言美[J];安徽文学(下半月);2009年03期

4 杨洁;;西方修辞学与汉语修辞学关于语境研究的对比分析[J];安徽文学(下半月);2011年09期

5 徐琰;读解俄语词汇的内涵[J];安阳师范学院学报;2003年06期

6 徐琰;社会因素赋予俄语语言的时代色彩[J];安阳师范学院学报;2004年03期

7 段建勇;李俊;张梅;马礼;;限定领域的自动问答系统研究[J];北方工业大学学报;2010年01期

8 董妍汝;;中文分词技术在搜索引擎中的应用[J];办公自动化;2010年04期

9 肖建安;论语言的变化与变异规律[J];北华大学学报(社会科学版);2000年02期

10 史学冬,李伟宏;大学英语教学和语言背景导入[J];北京机械工业学院学报;2002年01期

中国重要会议论文全文数据库 前10条

1 邓小玲;;积极型双语词典的例证[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年

2 伍志辉;;交互作用的认知语言学研究[A];中国当代教育理论文献——第四届中国教育家大会成果汇编(上)[C];2007年

3 刘艳芳;封化民;丁天昌;;中文视频问答系统研究[A];第二届和谐人机环境联合学术会议(HHME2006)——第15届中国多媒体学术会议(NCMT'06)论文集[C];2006年

4 吴校华;;浅析汉语象声词的转义及修辞效果[A];江西省语言学会2006年年会论文集[C];2006年

5 唐永明;王小捷;文娟;;基于关联词的复句语言模型[A];第三届中国智能计算大会论文集[C];2009年

6 龚小谨;罗振声;骆卫华;;模式匹配和句型成分分析相结合的语法错误自动检查[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

7 陈康;武港山;;基于Ontology的信息检索技术研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

8 吴晨;张全;;基于HNC的自然语言问答处理系统[A];第八届全国人机语音通讯学术会议论文集[C];2005年

9 文勖;张宇;刘挺;;类别主特征结合句法特征的中文问题层次分类[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

10 孙景广;蔡东风;吕德新;董燕举;;基于知网的中文问题自动分类[A];第三届学生计算语言学研讨会论文集[C];2006年

中国博士学位论文全文数据库 前10条

1 杨石乔;基于语料库的汉语医患会话修正研究[D];上海外国语大学;2010年

2 张巍;融合FAQ、本体和推理技术的问答系统研究[D];太原理工大学;2011年

3 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年

4 黄雪霞;新加坡华语词汇五十年发展变化研究[D];华中师范大学;2011年

5 罗芳;西藏农牧区小学汉语教学研究[D];华中师范大学;2011年

6 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年

7 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年

8 龙华;定义问答检索关键技术研究[D];重庆大学;2010年

9 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年

10 王萍;英汉短语结构受限搭配的对比研究[D];上海外国语大学;2011年

中国硕士学位论文全文数据库 前10条

1 佟庆;从认知语义学角度看“ウツ”的多义性[D];哈尔滨师范大学;2010年

2 梁静;汉西数词对比分析及汉语数词的西译[D];上海外国语大学;2010年

3 姚雅宁;汉语“玉”的多角度研究[D];上海外国语大学;2010年

4 严伟剑;疑问代词“怎么”“怎样”“怎么样”对比研究[D];上海外国语大学;2010年

5 耿冰;“实现事件”结构词汇化模式的英汉对比研究[D];上海外国语大学;2010年

6 刘宇;运用多媒体技术辅助高中英语阅读教学的研究[D];辽宁师范大学;2010年

7 王晓菲;帕尔默文化语言学视角下的中国古典诗歌英译中花卉意象再现研究[D];辽宁师范大学;2010年

8 冯效栋;垂直搜索引擎技术在网络舆情巡控中的研究与应用[D];中国海洋大学;2010年

9 冯晶晶;面向软件测试领域的自动问答系统[D];河南理工大学;2010年

10 王有权;基于Web的智能答疑技术研究与实现[D];南京财经大学;2010年

【二级参考文献】

中国期刊全文数据库 前10条

1 张仰森,丁冰青,龙一飞;一种英文单词拼写自动侦错与纠错的方法──骨架键法[J];电脑开发与应用;1999年02期

2 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期

3 刘秉权,王晓龙,王宇颖;一种多知识源汉语语言模型的研究与实现[J];计算机研究与发展;2002年02期

4 朱寰,阮彤,于庆喜;文本分割算法对中文信息过滤影响研究[J];计算机工程与应用;2002年13期

5 李家福,陆建江,张亚非;模糊聚类算法在汉语文本聚类中的应用[J];计算机工程;2002年04期

6 黄建中,王肖雷;Katz平滑算法在中文分词系统中的应用[J];计算机工程;2004年S1期

7 吴春颖;王士同;;基于二元语法的N-最大概率中文粗分模型[J];计算机应用;2007年12期

8 邹海山,吴勇,吴月珠,陈阵;中文搜索引擎中的中文信息处理技术[J];计算机应用研究;2000年12期

9 李志蜀,李果;中文搜索引擎的原理剖析及开发实现技术[J];计算机应用研究;2001年11期

10 周涛;中文搜索引擎[J];图书馆理论与实践;2000年03期

中国重要会议论文全文数据库 前1条

1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年

中国硕士学位论文全文数据库 前2条

1 乔冬梅;搜索引擎现状与发展研究[D];郑州大学;2002年

2 周钦强;基于人工智能技术Naive Bayes文本自动分类系统研究[D];广东工业大学;2005年

【相似文献】

中国期刊全文数据库 前10条

1 ;关键词搜索[J];每周电脑报;2000年38期

2 陈冰;;饿狼一样的网站提交工具——“提交饿狼”[J];科学之友;2000年07期

3 许斗;从Google看新一代搜索引擎的发展趋向[J];芜湖职业技术学院学报;2001年01期

4 周毅华;从搜索引擎的分类看其应用技巧[J];图书馆理论与实践;2002年06期

5 邹小筑;搜索引擎的选择与使用技巧[J];图书馆学研究;2002年05期

6 林燕;Google搜索引擎的搜索功能与使用技巧[J];河北科技图苑;2003年05期

7 林中;GOOGLE搜索引擎的关键词检索[J];中国信息导报;2003年03期

8 封剑待封喉;吸星大法“搜”天下 笑傲网络任我行——搜索引擎绝对专题[J];网络与信息;2003年07期

9 闫凡蕾;建设站内搜索的好帮手——Search Engine Maker[J];少年电世界;2003年08期

10 凤元杰,刘正春,王坚毅;搜索引擎主要性能评价指标体系研究[J];情报学报;2004年01期

中国重要会议论文全文数据库 前10条

1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年

2 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年

3 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

4 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

5 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年

6 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年

7 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年

8 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年

9 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年

10 杨萌;李春丽;朱明;;网络搜索技术下的编辑工作[A];学报编辑论丛(第十一集)[C];2003年

中国重要报纸全文数据库 前10条

1 李一鑫;[N];财经时报;2007年

2 周文林;[N];经济参考报;2007年

3 惠正一;[N];第一财经日报;2005年

4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;[N];中国计算机报;2005年

5 陈珊;[N];人民邮电;2005年

6 赵法忠;[N];中国经营报;2005年

7 金朝力;[N];北京商报;2006年

8 本报记者  赵晓辉 孟昭丽;[N];中国证券报;2006年

9 孙琎;[N];第一财经日报;2006年

10 姜蕊;[N];中国高新技术产业导报;2006年

中国博士学位论文全文数据库 前10条

1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年

2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年

3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年

4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年

5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年

6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年

7 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年

8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年

9 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年

10 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年

中国硕士学位论文全文数据库 前10条

1 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年

2 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年

3 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年

4 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年

5 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年

6 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年

7 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年

8 李建平;智能化WEB信息搜索引擎的研究与实现[D];大庆石油学院;2003年

9 田生伟;基于涉农词典的搜索引擎的研究与实践[D];新疆大学;2004年

10 欧建斌;基于Web挖掘与信息分类的个性化搜索引擎研究[D];暨南大学;2010年


  本文关键词:搜索引擎纠错算法研究与纠错Bad Case挖掘,,由笔耕文化传播整理发布。



本文编号:71290

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/71290.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7c3c9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com