潜在语义索引技术在知识产权专家库中的研究与应用
发布时间:2021-11-06 19:03
潜在语义索引技术(LSI)是第三代搜索引擎的热点技术,是一种个性化的检索方法。第一代搜索引擎采用基于布尔逻辑的关键字检索技术,第二代在前者的基础上通过各种方法提高了查准率,而第三代搜索引擎则以实用性与易用性为目标,它运用了DeepWeb、人工智能、语义分析等前沿领域技术。目前,主流的搜索技术仍然采用基于布尔逻辑的第一代技术,它必需用户提供准确的关键字以供检索;而数据信息量的增加以及自然语言的灵活性与歧义性,使得传统的搜索方法越来越无法胜任用户的需求。作为替代者,个性化的搜索技术越来越引起广泛的重视与研究。近年来,苏州市涉及知识产权的案件和纠纷迅速增加,建立苏州地区知识产权专家库可以使市知识产权局能深入了解并掌握本地区各行业专家最新的第一手资料。但是面对本地区复杂繁多的行业、不同层面的专家及其研究领域,以及关键内容的各种不同方式的自然语言描述,传统的搜索引擎难以达到快速准确搜索的要求。在这种背景下,本文设计将LSI检索应用于苏州市知识产权专家库系统。根据调查,目前尚未有应用LSI检索的专家数据库的报道。本文将LSI技术应用于苏州市知识产权专家库检索系统中进行探索性研究,并根据专家库的特点...
【文章来源】:苏州大学江苏省 211工程院校
【文章页数】:65 页
【学位级别】:硕士
【文章目录】:
中文摘要
Abstract
第一章 绪论
1.1 智能检索系统在信息时代的重要性
1.1.1 信息日益丰富和准确获取越来越困难之间的矛盾
1.1.2 检索工具搜索信息量过大和信息丢失之间的矛盾
1.2 自然语言处理综述
1.2.1 自然语言处理的形式模型的研制
1.2.2 自然语言将成为人机之间交流的最直接广泛的方式
1.3 潜在语义分析产生的背景
1.4 潜在语义分析
1.5 国内外研究概况
1.5.1 国外研究概况
1.5.2 国内研究概况
1.6 研究的目的与意义
1.7 本文工作
1.8 论文组织结构
第二章 信息检索技术与潜在语义索引模型
2.1 信息检索流程
2.2 信息检索模型介绍
2.2.1 传统信息检索模型
2.2.2 个性化信息检索模型
2.2.3 信息检索模型的特点与潜在语义索引模型的优势
2.3 潜在语义索引模型
2.3.1 文档预处理
2.3.2 特征分类与检索
2.4 潜在语义空间评价
2.5 本章小结
第三章 潜在语义技术的研究
3.1 潜在语义技术分析
3.1.1 潜在语义分析的特点
3.1.2 潜在语义分析的发展现状
3.2 基于权重与相似度的潜在语义分析
3.2.1 专家库特征文档矩阵的建立
3.2.2 奇异值分解
3.2.3 奇异值相似度计算
3.2.4 潜在语义分析权重计算
3.2.5 潜在语义空间的更新
3.2.6 精确率和召回率
3.3 潜在语义分析的应用
3.4 本章小结
第四章 基于 LSI 的专家库检索技术
4.1 专家信息预处理
4.1.1 文档的分词和标注
4.1.2 建立关键词矩阵概述
4.2 专家信息特征提取
4.2.1 生成词—文档矩阵
4.2.2 潜在语义分析权重计算
4.2.3 奇异值分解
4.3 专家信息检索技术
4.3.1 潜在语义分析文档的聚类
4.3.2 基于层次化特征的潜在语义空间快速聚类
4.4 本章小结
第五章 专家库信息检索系统的实现
5.1 系统概述
5.2 专家库检索系统总体设计
5.3 专家库检索系统的运行环境
5.4 系统搜索结果分析
第六章 总结与展望
参考文献
攻读学位期间公开发表的论文
致谢
【参考文献】:
期刊论文
[1]自然语言处理中的一些宏观问题之我见[J]. 冯志伟. 中国外语. 2009(05)
[2]基于词频统计的中文分词的研究[J]. 费洪晓,康松林,朱小娟,谢文彪. 计算机工程与应用. 2005(07)
[3]基于潜在语义标引的WEB文档自动分类[J]. 戚涌,徐永红,刘凤玉. 计算机工程与应用. 2004(22)
[4]基于Rough集潜在语义索引的Web文档分类[J]. 何明,冯博琴,傅向华. 计算机工程. 2004(13)
[5]基于模糊一致矩阵的认知权重综合确定法[J]. 张燕姑. 计算机工程与设计. 2004(06)
[6]基于潜在语义分析的BBS文档Bayes鉴别器[J]. 刘昌钰,唐常杰,于中华,杜永萍,郭颖. 计算机学报. 2004(04)
[7]基于潜在语义分析的信息检索[J]. 盖杰,王怡,武港山. 计算机工程. 2004(02)
[8]文本聚类算法的分析与比较[J]. 谷波,张永奎. 电脑开发与应用. 2003(11)
[9]基于向量空间模型的文档聚类算法研究[J]. 何飞,蒋冬初. 湖南城市学院学报. 2003(03)
[10]基于概念空间的文本分类研究[J]. 黄海英,林士敏,严小卫. 计算机科学. 2003(03)
硕士论文
[1]基于潜在语义分析的智能检索系统[D]. 翟琳琳.上海师范大学 2007
[2]基于潜在语义索引的文本分类技术的研究[D]. 全德.东北大学 2005
[3]中文智能搜索引擎[D]. 陈鑫.四川大学 2004
本文编号:3480363
【文章来源】:苏州大学江苏省 211工程院校
【文章页数】:65 页
【学位级别】:硕士
【文章目录】:
中文摘要
Abstract
第一章 绪论
1.1 智能检索系统在信息时代的重要性
1.1.1 信息日益丰富和准确获取越来越困难之间的矛盾
1.1.2 检索工具搜索信息量过大和信息丢失之间的矛盾
1.2 自然语言处理综述
1.2.1 自然语言处理的形式模型的研制
1.2.2 自然语言将成为人机之间交流的最直接广泛的方式
1.3 潜在语义分析产生的背景
1.4 潜在语义分析
1.5 国内外研究概况
1.5.1 国外研究概况
1.5.2 国内研究概况
1.6 研究的目的与意义
1.7 本文工作
1.8 论文组织结构
第二章 信息检索技术与潜在语义索引模型
2.1 信息检索流程
2.2 信息检索模型介绍
2.2.1 传统信息检索模型
2.2.2 个性化信息检索模型
2.2.3 信息检索模型的特点与潜在语义索引模型的优势
2.3 潜在语义索引模型
2.3.1 文档预处理
2.3.2 特征分类与检索
2.4 潜在语义空间评价
2.5 本章小结
第三章 潜在语义技术的研究
3.1 潜在语义技术分析
3.1.1 潜在语义分析的特点
3.1.2 潜在语义分析的发展现状
3.2 基于权重与相似度的潜在语义分析
3.2.1 专家库特征文档矩阵的建立
3.2.2 奇异值分解
3.2.3 奇异值相似度计算
3.2.4 潜在语义分析权重计算
3.2.5 潜在语义空间的更新
3.2.6 精确率和召回率
3.3 潜在语义分析的应用
3.4 本章小结
第四章 基于 LSI 的专家库检索技术
4.1 专家信息预处理
4.1.1 文档的分词和标注
4.1.2 建立关键词矩阵概述
4.2 专家信息特征提取
4.2.1 生成词—文档矩阵
4.2.2 潜在语义分析权重计算
4.2.3 奇异值分解
4.3 专家信息检索技术
4.3.1 潜在语义分析文档的聚类
4.3.2 基于层次化特征的潜在语义空间快速聚类
4.4 本章小结
第五章 专家库信息检索系统的实现
5.1 系统概述
5.2 专家库检索系统总体设计
5.3 专家库检索系统的运行环境
5.4 系统搜索结果分析
第六章 总结与展望
参考文献
攻读学位期间公开发表的论文
致谢
【参考文献】:
期刊论文
[1]自然语言处理中的一些宏观问题之我见[J]. 冯志伟. 中国外语. 2009(05)
[2]基于词频统计的中文分词的研究[J]. 费洪晓,康松林,朱小娟,谢文彪. 计算机工程与应用. 2005(07)
[3]基于潜在语义标引的WEB文档自动分类[J]. 戚涌,徐永红,刘凤玉. 计算机工程与应用. 2004(22)
[4]基于Rough集潜在语义索引的Web文档分类[J]. 何明,冯博琴,傅向华. 计算机工程. 2004(13)
[5]基于模糊一致矩阵的认知权重综合确定法[J]. 张燕姑. 计算机工程与设计. 2004(06)
[6]基于潜在语义分析的BBS文档Bayes鉴别器[J]. 刘昌钰,唐常杰,于中华,杜永萍,郭颖. 计算机学报. 2004(04)
[7]基于潜在语义分析的信息检索[J]. 盖杰,王怡,武港山. 计算机工程. 2004(02)
[8]文本聚类算法的分析与比较[J]. 谷波,张永奎. 电脑开发与应用. 2003(11)
[9]基于向量空间模型的文档聚类算法研究[J]. 何飞,蒋冬初. 湖南城市学院学报. 2003(03)
[10]基于概念空间的文本分类研究[J]. 黄海英,林士敏,严小卫. 计算机科学. 2003(03)
硕士论文
[1]基于潜在语义分析的智能检索系统[D]. 翟琳琳.上海师范大学 2007
[2]基于潜在语义索引的文本分类技术的研究[D]. 全德.东北大学 2005
[3]中文智能搜索引擎[D]. 陈鑫.四川大学 2004
本文编号:3480363
本文链接:https://www.wllwen.com/falvlunwen/zhishichanquanfa/3480363.html