面向现代汉语文本处理的全文检索、自动分词通用系统

发布时间：2021-01-01 15:36

　　全文检索是现代信息检索技术的一个非常重要的分支，它是处理非结构化数据的强大工具，也是搜索引擎的核心技术之一。本研究对中文全文检索的有关技术进行了较为深入的研究，重点放在全文检索技术的应用上。对如何利用新技术、改善检索系统的结构、提高检索系统的性能和效率、不断适应信息技术发展的需求等方面进行了新的探索。全文检索是一种I／O密集型的应用，以往的全文检索系统的开发多在关系数据库的基础上进行。本研究针对全文数据库的特点，指出此方式的弊端与不足，并提出了基于文件系统进行构建的解决方案。由于目前全文检索系统的开发平台并不多见，本文介绍了一种全文检索引擎工具包——Lucene，它功能强大，小巧精悍，便于嵌入各种应用。近年在世界各地被广泛使用，诸如IBM等公司都使用其核心代码。作为一个开源软件，为我们掌握搜索引擎的核心技术提供了绝佳机会，根据现代汉语文本的特点对进行二次开发，是一件很有意义的事情。汉语自动分词及词性标注是中文信息处理中的重要环节。针对现代汉语自动分词及词性标注的难点，本研究在自动分词方面进行了如下探索：1．对几种常用电子词典的结构进行了分析和比较，实现了核心词典+专业词...

【文章来源】：南京师范大学江苏省 211工程院校

【文章页数】：85 页

【学位级别】：硕士

【文章目录】：
中文摘要
ABSTRACT
第一章前言
    1.1 研究背景及现状
        1.1.1 全文检索的概念与特点
        1.1.2 中文全文检索
    1.2 本文的工作和意义
    1.3 本文的主要内容及其组织
第二章全文检索引擎Lucene的分析研究
    2.1 Lucene简介
    2.2 Lucene的倒排索引原理
    2.3 Lucene的组成结构
    2.4 LUCENE的基本数据类型
    2.5 Lucene中的文件格式
    2.6 全文检索的实现机制
第三章全文检索系统的分析与设计
    3.1 系统的整体结构
    3.2 模块的功能描述
        3.2.1 文档对象
        3.2.2 语言分析器和查询分析器
        3.2.3 检索接口
        3.2.4 索引接口
    3.3 系统数据流逻辑
    3.4 数据流分析
    3.5 系统的可扩展性
第四章中文自动分词技术
    4.1 自动分词技术及发展概况
        4.1.1 汉语自动分词技术及存在的困难
        4.1.2 汉语自动分词的研究现状及分析
    4.2 分词算法
        4.2.1 现有的的分词算法分析
        4.2.2 本系统所用分词算法
    4.3 分词词典
        4.3.1 词典的常用组织结构
        4.3.2 本系统的分词词典机制
        4.3.3 本系统词典的结构
    4.4 歧义字段的处理
        4.4.1 歧义字段产生的根源及其处理策略
        4.4.2 本系统中歧义字段的消解方法
    4.5 未登录词识别
        4.5.1 未登录词的研究现状
        4.5.2 未登录词现有解决方案的讨论
        4.5.3 本系统中未登录词的解决方案
        4.5.4 数字串的识别
        4.5.5 重叠词形式的识别
    4.6 词性标注
        4.6.1 词性标注的研究的概况
        4.6.2 常用的兼类词排歧方法及存在问题分析
        4.6.3 本系统的处理方式
    4.7 自动分词系统的设计与实现
        4.7.1 系统设计原则及思路
        4.7.2 系统结构研制流程图
        4.7.3 系统的实现及其性能测评
第五章系统集成的设计与实现
    5.1 检索结果的打开与保存
    5.2 建立检索
    5.3 检索流程
    5.4 查询表达式的处理
    5.5 检索结果的输出
    5.6 自动分词模块
    5.7 字频、词频统计
第六章结论
    6.1 本文工作总结
    6.2 检索功能的比较与测试
    6.3 今后的工作
参考文献
后记

【参考文献】：
期刊论文
[1]一种基于语境的中文分词方法研究[J]. 张茂元,卢正鼎,邹春燕.  小型微型计算机系统. 2005(01)
[2]用基于词的二元模型消解交集型分词歧义[J]. 陈小荷.  南京师大学报(社会科学版). 2004(06)
[3]汉语自动分词专家系统的设计与实现[J]. 王彩荣.  微处理机. 2004(03)
[4]词性标注规则的获取和优化[J]. 陈文亮,朱靖波,吕学强.  术语标准化与信息技术. 2004(02)
[5]基于角色标注的中国人名自动识别研究[J]. 张华平,刘群.  计算机学报. 2004(01)
[6]汉语语料的切分标注加工系统[J]. 徐菁,张辉,陆汝占.  计算机工程. 2003(09)
[7]基于N-最短路径方法的中文词语粗分模型[J]. 张华平,刘群.  中文信息学报. 2002(05)
[8]全文检索字索引技术的研究与实现[J]. 曹元大,贺海军,涂哲明,王琴.  计算机工程. 2002(06)
[9]自然语言处理技术的三个里程碑[J]. 黄昌宁,张小凤.  外语教学与研究. 2002(03)
[10]一种基于概率模型的分词系统[J]. 李家福,张亚非.  系统仿真学报. 2002(05)

博士论文
[1]中文信息处理中若干关键技术的研究[D]. 王建会.复旦大学 2004

硕士论文
[1]中文自动分词系统的研究[D]. 朱珣.华中师范大学 2004
[2]基于统计的汉语词性标注方法的研究[D]. 梁以敏.大连理工大学 2004
[3]在自然汉语中进行分词和词性标注[D]. 刘东旭.电子科技大学 2003
[4]中文文本分词研究[D]. 许林杰.山东师范大学 2003
[5]现代汉语通用分词系统的技术与实现[D]. 罗智勇.北京工业大学 2002
[6]基于Internet的智能信息检索技术研究[D]. 傅赛香.广西师范大学 2002
[7]基于统计的开放式汉语自动分词[D]. 关宏超.大连理工大学 2002
[8]规则与统计相结合的兼类词处理机制[D]. 张丽静.大连理工大学 2002
[9]现代汉语分词系统通用性设计及切分歧义处理[D]. 娄（王廷）.北京工业大学 2000

本文编号：2951549

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/tushudanganlunwen/2951549.html

上一篇：弱信号介入的供应链风险识别本体构建：从顶层本体到领域本体
下一篇：大数据背景下高等院校公共信息服务能力建设

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|