当前位置:主页 > 社科论文 > 图书档案论文 >

多源文档全文检索系统设计与实现

发布时间:2021-08-28 13:51
  全文检索是快速有效的信息检索技术,它极大地提高了人们从大量纷繁复杂的数据中查找特定信息的效率。虽然目前对文本处理技术已经有了很大的发展和应用,但是仍然存在一些问题有待研究:如何抽取有效的文本;如何抽取标记文档中的元数据信息;如何提高文本搜索的准确率和召回率。本文的研究是多源文档全文检索系统设计与实现,主要是对整个文件数据库的表示、组织、索引和查询,即根据用户的查询要求,从文件数据库中检索出相关的信息。其中心环节是文本内容解析、索引库的建立、查询信息的获得、检索结果的处理以及相关信息的匹配,主要研究工作体现在:(1)分析和总结多源文档全文检索系统构建的技术和理论。对中文分词技术、全文索引技术、面向用户需求的检索以及基于内容的元数据描述技术进行了详细的研究与阐述。(2)设计与分析多源文档全文检索系统结构。针对中文全文内容分析问题、多源文档转换问题、中文分词问题,提出了有效的解决模型。研究内容包括全文检索系统结构、功能模块设计和索引结构和数据库设计。研究重点在于分词、索引和检索模块的分析与设计。(3)多源文档全文检索系统构建的关键技术研究。提出一种基于词频统计和检索效率更高的特征词聚合与具备... 

【文章来源】:华中师范大学湖北省 211工程院校 教育部直属院校

【文章页数】:67 页

【学位级别】:硕士

【部分图文】:

多源文档全文检索系统设计与实现


LOM数据模型的层次结构

多文档,功能模块,文档,多源


度等因素进行相关性排序。3.1系统体系结构多源文档全文检索系统结构如图3一1所示。系统结构中包括文档获取模块、文本解析、信息抽取、索引与检索等信息处理模块;多源文档资源库、文本库、索引库构成数据存储模块;以及检索服务接口模块等。多源文档全文检索系统的工作机理如下:(1)通过网络爬虫工具从网站或文件系统中获取文件,包括PDF、HTML、woRD、PPT文档等多种文件格式,获取的文件信息存储在文档信息库;(2)对获取的多源文档进行文件格式转换,形成文本文件,并通过文件内容过滤,去除标签信息或版权信息等与内容无关信息,形成文档内容快照,存储在文本库中;(3)对过滤后的文本信息依据专业词库进行分词,并提取出文件的主要内容和信息,如主题、作者和关键词等信息;(4)对文档的多维信息进行索引,添加到索引库中,用于用户检索和查询使用;(5)用户通过查询接口

索引,索引段,索引文档,索引器


》索引段(Segrnent):可以是一个或者多个,在本文索引结构中只有一个索引段。》索引文档(Documeni):是索引器可以直接添加的对象。具体形式如图3一8所示:

【参考文献】:
期刊论文
[1]决策树简化算法的一种深化研究[J]. 张翼宇.  福建电脑. 2008(05)
[2]基于学习对象元数据的教育资源管理系统的设计与实现[J]. 郑维勇,王一萍.  中国教育信息化. 2007(21)
[3]自然语言处理在信息检索中的应用综述[J]. 王灿辉,张敏,马少平.  中文信息学报. 2007(02)
[4]信息检索中语言模型的研究[J]. 楼炉群,牛军钰.  计算机工程. 2007(04)
[5]基于大规模日志分析的搜索引擎用户行为分析[J]. 余慧佳,刘奕群,张敏,茹立云,马少平.  中文信息学报. 2007(01)
[6]基于XML数据库的标准化教育资源内容服务系统的设计与实现[J]. 杨小花,杨宗凯,吴砥.  计算机应用研究. 2006(09)
[7]基于复杂适应系统理论的组织知识系统主体研究[J]. 李海波,刘则渊,丁堃.  科技管理研究. 2006(07)
[8]文本检索的统计语言建模方法综述[J]. 丁国栋,白硕,王斌.  计算机研究与发展. 2006(05)
[9]中文文本体裁的自动分类机制[J]. 方鸷飞,林鸿飞,杨志豪,赵晶.  中文信息学报. 2006(02)
[10]基于遗传算法和支持向量机的特征子集选择方法[J]. 乔立岩,彭喜元,马云彤.  电子测量与仪器学报. 2006(01)

博士论文
[1]选择性贝叶斯分类算法研究[D]. 陈景年.北京交通大学 2008
[2]汉语文本自动分类[D]. 郝立柱.吉林大学 2008
[3]基于领域本体的汉语共指消解及相关技术研究[D]. 史树敏.南京理工大学 2008
[4]智能知识及其管理模式研究[D]. 李兴森.中国科学院研究生院 2008
[5]基于上下文的信息检索关键技术研究[D]. 田萱.中国人民大学 2007
[6]文本分类及其相关技术研究[D]. 尚文倩.北京交通大学 2007
[7]中文信息检索索引模型及相关技术研究[D]. 杨传耀.复旦大学 2007
[8]多机器人系统协调与控制研究[D]. 严勇杰.哈尔滨工程大学 2007
[9]WEB数据挖掘研究[D]. 王勇.西北工业大学 2006
[10]关联文本分类关键技术研究[D]. 钱铁云.华中科技大学 2006



本文编号:3368634

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/3368634.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户93040***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com