问答系统中文输入纠错技术研究
本文关键词:基于搜索引擎的问答系统若干关键技术研究与实现,由笔耕文化传播整理发布。
《山东大学》 2012年
问答系统中文输入纠错技术研究
秦英
【摘要】:在迅速发展的Web时代,问答系统在互联网上扮演了越来越重要的角色,而日益增多并且成熟的互联网用户对问答系统的要求也越来越高,其功能也在不断丰富和完善当中,除了推理功能等,输入自动检查纠错功能也是一项非常重要的附加技术。 对于中文问答系统来说,输入自动检查纠错功能是指,用户在输入关键词进行搜索之后,如果问答系统没有计算出与用户问句相同的句子,而经过对用户句子进行纠错之后,能够得到与用户问句相似的句子,则用户将会在问答系统页面看到系统提供的推测到的相似问句。 针对以上问题,根据中文语言的特点,对中文语料库建立了N-gram统计语言模型,并且对其进行了详细的分析,确定了语言模型所必需的参数,以及对其进行了优化处理,使其更加接近真实情况下的语言。研究中引入了拼音纠错和映射表相结合的纠错方法,并首次提出使用语言模型解码算法对纠错检查结果再次计算比较,最终得出优化的纠错结果。 以上所提出的理论模型,本文进行了实验验证,在统计语言模型的基础上,采用三种不同的纠错方法进行实验对比,一是只有拼音纠错,二是拼音纠错与映射表结合,三是拼音纠错与映射表结合并利用语言模型解码算法优化。最后对实验结果进行了分析,验证得出利用最后一种方法即第三种方法能够取得较好的效果,并且上下文语境信息越多,纠错的召回率和准确率也就越高。 最后,对本论文所做的工作进行总结,指出了下一步的研究方向。
【关键词】:
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.1
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【参考文献】
中国期刊全文数据库 前10条
1 孙铁利;刘延吉;;中文分词技术的研究现状与困难[J];信息技术;2009年07期
2 吴育良;;百度中文分词技术浅析[J];河南图书馆学刊;2008年04期
3 路永刚;赵伟;;一种改进的MM分词方法的研究与实现[J];长春工业大学学报(自然科学版);2006年04期
4 李振星,徐泽平,唐卫清,唐荣锡;全二分最大匹配快速分词算法[J];计算机工程与应用;2002年11期
5 费洪晓,康松林,朱小娟,谢文彪;基于词频统计的中文分词的研究[J];计算机工程与应用;2005年07期
6 陈平;刘晓霞;李亚军;;基于字典和统计的分词方法[J];计算机工程与应用;2008年10期
7 郑家恒,卢娇丽;关键词抽取方法的研究[J];计算机工程;2005年18期
8 陈耀东,王挺;基于有向图的双向匹配分词算法及实现[J];计算机应用;2005年06期
9 赵作鹏;尹志民;王潜平;许新征;江海峰;;一种改进的编辑距离算法及其在数据处理中的应用[J];计算机应用;2009年02期
10 毛先领;李晓明;;问答系统研究综述[J];计算机科学与探索;2012年03期
中国硕士学位论文全文数据库 前3条
1 陈琳;基于搜索引擎的问答系统若干关键技术研究与实现[D];天津大学;2008年
2 李晓东;搜索引擎中中文分词与纠错模块的设计与实现[D];北京交通大学;2008年
3 陈智鹏;基于统计的搜索引擎中文输入纠错技术研究[D];北京邮电大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 白晓梅;张福利;;校园网中文搜索引擎系统的设计[J];鞍山师范学院学报;2006年06期
2 耿新青;陶凤梅;黄宏光;;一种基于近邻匹配的中文分词算法Jlppeccz[J];鞍山师范学院学报;2010年04期
3 赵红丹;王希杰;;基于隐马尔科夫模型的词性标注[J];安阳师范学院学报;2010年05期
4 董妍汝;;中文分词技术在搜索引擎中的应用[J];办公自动化;2010年04期
5 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
6 张晓君;;为什么语言学研究离不开逻辑学——2009语言学和逻辑学交叉研究研讨会侧记[J];毕节学院学报;2010年05期
7 徐光侠;封雷;涂演;李成;;基于Android和Google Maps的生活辅助系统的设计与实现[J];重庆邮电大学学报(自然科学版);2012年02期
8 何友全;徐小乐;徐澄;栾红玉;唐华姣;;搜索引擎用户接口设计[J];重庆理工大学学报(自然科学版);2010年09期
9 陈晓明;梁雄友;;一种实用的PCFG多阶段全局寻优句法分析算法[J];长春理工大学学报(自然科学版);2010年02期
10 马照亭;李志刚;孙伟;印洁;;一种基于地址分词的自动地理编码算法[J];测绘通报;2011年02期
中国重要会议论文全文数据库 前10条
1 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 周惠巍;黄德根;高洁;杨元生;;最大生成树算法和Nivre算法相结合的中文依存关系解析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 李帅;王精业;王丽娟;;基于马尔可夫模型的文本信息提取算法概述[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
4 王育红;陈军;;GIS客户数据库更新自动化实施算法研究[A];中国测绘学会第九次全国会员代表大会暨学会成立50周年纪念大会论文集[C];2009年
5 李玉良;王良松;李晶;;图像中数字字符识别技术概览[A];节能环保 和谐发展——2007中国科协年会论文集(一)[C];2007年
6 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
7 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
8 刮俊杰;吴树国;伊胜伟;;基于词效应的中文术语提取方法[A];第三届中国智能计算大会论文集[C];2009年
9 戴祖旭;洪帆;;基于词性标记文法的文本信息隐藏算法[A];第四届中国软件工程大会论文集[C];2007年
10 张霄军;;“长安”的同名地名自动识别与指代消解[A];陕西省社会科学界第二届(2008)学术年会——青年博士论坛“陕西新起点:创新·发展·民生”专题获奖论文选编[C];2008年
中国博士学位论文全文数据库 前10条
1 姚文琳;汉语依存句法分析方法的研究与实现[D];中国海洋大学;2009年
2 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
3 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
4 斯·劳格劳;现代蒙古语依存句法自动分析研究[D];内蒙古大学;2011年
5 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
6 吴戈;基于数字水印的文本信息隐藏方法的研究[D];长春理工大学;2011年
7 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年
8 王迈;语言形式化原理[D];上海外国语大学;2011年
9 张蕾;概念结构及其应用[D];西北工业大学;2001年
10 刘忠;性质语意理论的提出与自然语言理解及其实现的研究[D];华东师范大学;2004年
中国硕士学位论文全文数据库 前10条
1 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
2 刘婧一;元代笔记分词理论与实践[D];广西师范学院;2010年
3 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
4 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
5 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
6 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
7 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
8 朱利君;基于茶学领域本体的智能检索研究[D];安徽农业大学;2010年
9 王玉丹;基于SVM的汉语依存句法分析研究[D];中国海洋大学;2010年
10 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
2 柳泉波,黄荣怀,何克抗;智能答疑系统的设计与实现[J];中国远程教育;2000年08期
3 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
4 张仰森,丁冰青,龙一飞;一种英文单词拼写自动侦错与纠错的方法──骨架键法[J];电脑开发与应用;1999年02期
5 张磊;张代远;;中文分词算法解析[J];电脑知识与技术;2009年01期
6 刘利东;基于组合度的汉语分词决策算法研究[J];德州学院学报(自然科学版);2003年02期
7 吴应良,韦岗,李海洲;一种基于N-gram模型和机器学习的汉语分词算法[J];电子与信息学报;2001年11期
8 戴耀晶;汉语疑问句的预设及其语义分析[J];广播电视大学学报(哲学社会科学版);2001年02期
9 孙铁利;刘延吉;;中文分词技术的研究现状与困难[J];信息技术;2009年07期
10 吴育良;;百度中文分词技术浅析[J];河南图书馆学刊;2008年04期
中国重要会议论文全文数据库 前1条
1 周强;詹卫东;任海波;;构建大规模的汉语语块库[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国硕士学位论文全文数据库 前3条
1 陈伟雄;基于元搜索的中文搜索引擎研究与实现[D];清华大学;2004年
2 傅士光;基于主题的搜索引擎的研究与实现[D];北京交通大学;2007年
3 付志超;基于Map/Reduce的分布式智能搜索引擎框架研究[D];武汉理工大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 张晓孪;王西锋;;中文问答系统中语义角色标注的研究与实现[J];科学技术与工程;2008年10期
2 秦兵,刘挺,王洋,郑实福,李生;基于常问问题集的中文问答系统研究[J];哈尔滨工业大学学报;2003年10期
3 付鸿鹄;基于W eb的开放领域问答系统研究[J];现代图书情报技术;2005年09期
4 高明霞;刘椿年;;基于模糊描述逻辑的PNL网络问答系统[J];计算机工程;2006年21期
5 王树西;赵星秋;潘硕;;问答系统在教学中的应用[J];中国教育信息化;2007年07期
6 杜玮;邸书灵;孙树静;;基于互联网技术的问答系统研究[J];微计算机信息;2007年36期
7 陈敏杰;;问答系统中问题分析模块的实现[J];经营管理者;2009年13期
8 李东园;白宇;蔡东风;;面向中文问答的信息检索系统及评测[J];沈阳航空工业学院学报;2009年03期
9 李季;一个标准中文问答系统的研究与实现[J];计算机系统应用;2004年06期
10 王国金,康耀红;基于布尔检索策略的问答系统性能研究[J];科技广场;2005年10期
中国重要会议论文全文数据库 前10条
1 何靖;陈翀;闫宏飞;;开放域问答系统研究综述[A];第六届全国信息检索学术会议论文集[C];2010年
2 栗振江;杨洋;李丽;;智能问答系统[A];2011年全国通信安全学术会议论文集[C];2011年
3 王树西;刘群;白硕;王斌;程学旗;姜吉发;;基于动态知识库的问答系统研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 张琼;陈群秀;;面向网络的问答系统研究综述[A];第一届学生计算语言学研讨会论文集[C];2002年
5 毛存礼;余正涛;线岩团;郭剑毅;雷雄丽;;基于短信的旅游景点酒店问答系统研究[A];中国自动化学会控制理论专业委员会A卷[C];2011年
6 于士涛;袁晓洁;师建兴;杨娜;;一种Web问答系统中基于XML片段的语义项模型[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
7 栾家阳;张文波;姚天昉;;基于汽车领域的情感问答系统设计与实现[A];第五届全国青年计算语言学研讨会论文集[C];2010年
8 葛正荣;李婷玉;姚天昉;;汉语情感问题类型分类研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
9 张宇;刘挺;文勖;;基于改进贝叶斯模型的问题分类[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 王树西;白硕;;中文问答系统中的模式推理[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
中国重要报纸全文数据库 前10条
1 设计师 颜其锋;[N];中华读书报;2009年
2 吴江南;[N];中国高新技术产业导报;2001年
3 ;[N];中国电脑教育报;2000年
4 赵铭;[N];中国高新技术产业导报;2003年
5 连晓东;[N];中国电子报;2005年
6 刘申;[N];中国计算机报;2004年
7 本报记者 尹训宁;[N];中国知识产权报;2006年
8 ;[N];中国信息报;2000年
9 小添;[N];电脑报;2001年
10 记者 胡嫚;[N];中国知识产权报;2010年
中国博士学位论文全文数据库 前10条
1 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
2 路遥;用户交互式问答系统中问题推荐机制的研究[D];中国科学技术大学;2012年
3 黎新;面向问答系统的段落检索技术研究[D];中国科学技术大学;2010年
4 张巍;融合FAQ、本体和推理技术的问答系统研究[D];太原理工大学;2011年
5 宋万鹏;短文本相似度计算在用户交互式问答系统中的应用[D];中国科学技术大学;2010年
6 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年
7 夏天;研究性学习支持系统[D];华东师范大学;2007年
8 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
9 张显;信息距离理论及其在问答系统中的应用研究[D];清华大学;2008年
10 呼大为;面向问答系统的答案获取方法研究与实现[D];中国科学技术大学;2008年
中国硕士学位论文全文数据库 前10条
1 卜文娟;基于概念图的中文问答系统的研究与实现[D];西北大学;2010年
2 刘祥;基于课程知识的问答系统研究与应用[D];大连海事大学;2010年
3 李旭锋;中文问答系统中问句理解和相似度计算的研究与实现[D];华南理工大学;2010年
4 刘渊杰;社区问答系统最佳回答机制的研究[D];上海交通大学;2010年
5 胡家豪;基于互联网的WEB舆情问答系统[D];电子科技大学;2011年
6 孙林;基于在线论坛的问答对识别研究与问答系统实现[D];哈尔滨工业大学;2010年
7 高艳影;中文问答系统中的问题分类研究[D];合肥工业大学;2011年
8 张诚;基于领域知识的限定域中文问答系统研究[D];上海交通大学;2010年
9 张兰轩;基于潜在语义分析的大学概况中文问答系统[D];大连理工大学;2004年
10 徐爱武;互动问答系统中问题回答者推荐研究[D];浙江大学;2011年
本文关键词:基于搜索引擎的问答系统若干关键技术研究与实现,,由笔耕文化传播整理发布。
本文编号:59851
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/59851.html