自然语言处理在信息检索中的研究和应用
发布时间:2023-05-03 17:30
21世纪是互联网的黄金时代。在这一期间,信息技术得到了快速的发展,因特网已经成为目前最大的知识宝库。其内容浩如烟海,包罗万象,是人们求知解惑的重要来源。信息检索系统作为人们获取网络资源的高效工具,自始至终发挥着重要作用。但是传统采用关键字进行全文检索方式的检索系统,存在检索结果不全面和相关性低等问题。针对目前检索系统存在的不足,本文使用自然语言处理中的相关技术对检索系统加以优化,实现对查询关键词进行扩展。本文设计了一种基于百科词条信息的词语相似度计算方法。该方法由词条间对应的名片、词条正文,开放分类和相关词条四部分之间的内容相似度,来获得给定词汇对的整体相似度。利用该方法在《HowNet》中文词典中获取关键词意思相近的词作为扩展词。另外,本文还实现了对用户兴趣爱好信息的提取,并把结果作为对检索结果排序优化的依据。本文的主要工作如下:(1)深入研究Simhash算法,提出了改进的TTSimhash算法。TTSimhash算法采用ICTCLAS分词技术,在关键词初始权值计算中,引入TF-IDF方法,并考虑了词性、词长的因素。采用基于PageRank的思想对文本建立图模型,通过邻接节点以及邻...
【文章页数】:71 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景及意义
1.2 研究现状及发展趋势
1.3 本文主要工作
1.4 本文组织结构
第2章 理论与技术基础
2.1 中文分词和预处理
2.2 TF-IDF算法
2.3 百度百科和词语相似度
2.4 本章小结
第3章 Simhash算法的改进
3.1 Simhash算法简介
3.2 改进的Simhash算法
3.2.1 投票模型简介
3.2.2 关键词权值计算
3.3 评价指标
3.4 实验及结果分析
3.5 本章小结
第4章 基于TTSimhash算法的词语相似度计算
4.1 词条相似度计算
4.1.1 词条名片相似度计算
4.1.2 词条正文相似度计算
4.1.3 词条开放分类相似度计算
4.1.4 相关词条相似度计算
4.1.5 词条相似度计算公式
4.2 数据集处理
4.3 评价指标
4.4 实验及结果分析
4.5 本章小结
第5章 词语相似度在信息检索中的应用
5.1 系统需求分析
5.2 系统设计与实现
5.2.1 查询扩展模块设计与实现
5.2.2 个性化模块设计与实现
5.3 系统测试
5.3.1 查询扩展模块测试
5.3.2 个性化模块测试
5.3.3 系统搜索结果展示
5.4 本章小结
第6章 总结和展望
6.1 总结
6.2 展望
参考文献
攻读硕士学位期间发表的论文
致谢
本文编号:3807030
【文章页数】:71 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景及意义
1.2 研究现状及发展趋势
1.3 本文主要工作
1.4 本文组织结构
第2章 理论与技术基础
2.1 中文分词和预处理
2.2 TF-IDF算法
2.3 百度百科和词语相似度
2.4 本章小结
第3章 Simhash算法的改进
3.1 Simhash算法简介
3.2 改进的Simhash算法
3.2.1 投票模型简介
3.2.2 关键词权值计算
3.3 评价指标
3.4 实验及结果分析
3.5 本章小结
第4章 基于TTSimhash算法的词语相似度计算
4.1 词条相似度计算
4.1.1 词条名片相似度计算
4.1.2 词条正文相似度计算
4.1.3 词条开放分类相似度计算
4.1.4 相关词条相似度计算
4.1.5 词条相似度计算公式
4.2 数据集处理
4.3 评价指标
4.4 实验及结果分析
4.5 本章小结
第5章 词语相似度在信息检索中的应用
5.1 系统需求分析
5.2 系统设计与实现
5.2.1 查询扩展模块设计与实现
5.2.2 个性化模块设计与实现
5.3 系统测试
5.3.1 查询扩展模块测试
5.3.2 个性化模块测试
5.3.3 系统搜索结果展示
5.4 本章小结
第6章 总结和展望
6.1 总结
6.2 展望
参考文献
攻读硕士学位期间发表的论文
致谢
本文编号:3807030
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3807030.html