基于统计的搜索引擎中文输入纠错技术研究.doc 全文免费在线阅读
发布时间:2016-10-02 18:13
本文关键词:基于统计的搜索引擎中文输入纠错技术研究,,由笔耕文化传播整理发布。
文档介绍:
【精品】毕业论文优秀毕业论文本科论文专业学术论文参考文献资料计算机应用技术专业优秀论文--基于统计的搜索引擎中文输入纠错技术研究关键词:搜索引擎中文输入纠错 N-gram 模型统计语言 TF/IDF 权重分布式计算摘要:在已经到来的 Web2.0 时代,搜索引擎在互联网上扮演了越来越重要的角色,而日益增多并且成熟的互联网用户对搜索引擎的要求也越来越高,其功能也在不断丰富和完善当中,输入自动检查纠错功能就是一项非常重要的附加技术,并且已经得到了较为广泛的应用和推广。对于中文搜索引擎来说,输入自动检查纠错功能是指,用户在输入关键词进行搜索之后,如果搜索引擎在返回结果中计算出与此关键词相似的另一形式(如词组中出现同音不同字,或者某一错别字现象)得到大量的搜索结果,用户将会在搜索结果页面看到系统提供的推测到的关键词项。针对以上问题,首次将一种完全通过分析上下文统计信息的方法引入搜索引擎的输入纠错技术中(未见文献报道),根据中文语言的特点,对中文语料库建立了 N-gram 统计语言模型,并且对其进行了详细的分析,确定了语言模型所必需的参数,以及对其进行了优化处理,使其更加接近真实情况下的语言。研究中引入了 TF/IDF 权重计算方法,将初步统计语言模型得出的纠...
内容来自转载请标明出处.
本文关键词:基于统计的搜索引擎中文输入纠错技术研究,由笔耕文化传播整理发布。
本文编号:129180
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/129180.html