中文科技文献网络搜索引擎自动文摘系统的设计与实现
本文关键词:中文科技文献网络搜索引擎自动文摘系统的设计与实现
更多相关文章: 自动文摘 搜索引擎 中文科技文献 网页清洗 摘要提取
【摘要】: 随着Internet的迅速发展,Web上的各种数据急剧增加,网络已经成为数据的仓库和知识的来源。用户如何才能快速有效地获取和利用这些资源,已经成为迫切需要解决的一个问题,而信息检索和自动摘要是目前解决这一难题的关键技术。自动摘要技术将文档内容以简洁精练的形式呈现出来,是信息检索技术发展到一定程度的自然延伸。目前,搜索引擎作为信息检索的一个重要工具,往往只是简单截取关键字所在的部分句子或段落作为摘要提供给用户,造成用户在浏览搜索结果时无法把握整个网页的内容提要,进而影响检索效率。而传统基于词频统计的摘要方法又主要针对纯文本文档,且单纯考虑文本的表层特征,缺乏对文档的语义分析,生成的文摘质量不高,因此也难以直接适用于Web文档摘要的自动提取。 本课题的研究目标是在对自动文摘技术进行深入研究的基础上,提出一种适合于中文科技文献搜索引擎的Web文档的自动摘要方法,并实际开发出一个Web文档自动摘要系统。该系统可作为搜索引擎的辅助检索,摘要内容应满足完备性和概括性,并且具备一定连贯性。 为此,本文在综合分析Web页面信息特征的基础上,首先获得页面的正文信息,然后综合统计方法和启发式规则来提取文档的关键词、关键句,最后根据摘要比例输出符合条件的摘要句子。在这过程中,本文全面系统的介绍了文本自动摘要的相关问题和技术,深入分析了Web页面信息特征,提出了Web页面原文摘要的抽取方法及一种适合于网页信息的小标题提取算法,探讨了摘要生成的相关技术,并提出了一种结合统计方法和文本结构特征分析的自动摘要方法。最后本文综合以上研究成果设计并实现了一个中文Web网页自动摘要系统模型,并对实际的网页进行了测试。 测试结果表明:对网页文档的摘要能够满足完备性和概括性的要求,反映文档的主要内容。说明本文提出的摘要方法对中文网页的处理是切实可行的。在测试中发现,部分摘要的连贯性不是很好。在不影响处理速度的前提下,适当地利用一些自然语言理解和生成技术来提高摘要质量,尤其是改善摘要的可读性,这将是今后进一步研究的重点。
【关键词】:自动文摘 搜索引擎 中文科技文献 网页清洗 摘要提取
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP311.52
【目录】:
- 第1章 绪论7-21
- 1.1 论文研究背景及意义7-9
- 1.1.1 论文研究背景7-8
- 1.1.2 论文研究意义8-9
- 1.2 国内外研究现状9-17
- 1.2.1 搜索引擎的产生和发展现状9-13
- 1.2.2 国外自动文摘现状研究13-15
- 1.2.3 国内自动文摘现状研究15-17
- 1.3 论文研究目标17
- 1.4 论文研究路线17-18
- 1.5 论文研究内容18-19
- 1.6 论文研究方法19-21
- 第2章 中文科技文献自动文摘概述21-36
- 2.1 相关理论及概念21-24
- 2.1.1 科技文献21-22
- 2.1.2 文摘的概念22-24
- 2.1.3 文摘内容的选择标准24
- 2.2 中文自动文摘主要生成方法24-33
- 2.2.1 基于原文抽取的自动文摘25-28
- 2.2.2 基于结构分析的自动文摘28-30
- 2.2.3 基于语义理解的自动文摘30-31
- 2.2.4 基于模板的自动文摘31-33
- 2.3 自动文摘系统的评价33-36
- 2.3.1 内部评价方法(Intrinsic Methods)33-34
- 2.3.2 外部评价方法(Extrinsic Methods)34-35
- 2.3.3 内部评价与外部评价方法的选择阶段35-36
- 第3章 网页主体内容提取36-50
- 3.1 网页结构分析36-38
- 3.2 文档对象模型38-39
- 3.3 网页清洗过程39-47
- 3.3.1 网页清洗概述41-42
- 3.3.2 HTML 文档解析42-43
- 3.3.3 页面清洗43-47
- 3.4 实例分析47-50
- 第4章 中文自动文摘功能模块设计50-76
- 4.1 原文摘要提取模块50-55
- 4.1.1 原文摘要结构分析52-53
- 4.1.2 原文摘要提取算法53
- 4.1.3 实例分析53-55
- 4.2 小标题识别与提取模块55-60
- 4.2.1 小标题识别55-57
- 4.2.2 小标题提取算法57-58
- 4.2.3 实例分析58-60
- 4.3 文摘句提取模块60-73
- 4.3.1 自动分词61-66
- 4.3.2 词语权值计算66-67
- 4.3.3 计算句子权值67-69
- 4.3.4 实例分析69-73
- 4.4 网页文档摘要降低冗余处理73-76
- 第5章 中文自动文摘系统实现76-92
- 5.1 中文自动文摘系统子模块功能及结构76-79
- 5.2 中文自动文摘系统运行流程79-81
- 5.3 中文自动文摘系统实现81-92
- 5.3.1 系统软件环境简介81-84
- 5.3.2 系统操作过程84-90
- 5.3.3 系统小结90-92
- 第6章 结束语92-93
- 参考文献93-96
- 摘要96-98
- ABSTRACT98-100
- 致谢100
【参考文献】
中国期刊全文数据库 前10条
1 王永成,许慧敏;OA-1.4 版中文自动摘要系统[J];高技术通讯;1998年01期
2 陈桂林,王永成;Internet网络信息自动摘要的研究[J];高技术通讯;1999年02期
3 李蕾,钟义信,郭祥昊;面向特定领域的理解型中文自动文摘系统[J];计算机研究与发展;2000年04期
4 刘功申,王永成,许一震;小标题识别的意义和方法[J];计算机工程;2002年06期
5 王建波,王开铸;自然语言篇章理解及基于理解的自动文摘研究[J];中文信息学报;1992年02期
6 刁倩,王永成,张惠惠,何骥;文本自动分类中的词权重与分类算法[J];中文信息学报;2000年03期
7 薛翠芳,郭炳炎;汉语文本结构的自动分析[J];情报学报;2000年04期
8 杨晓兰,钟义信;基于全信息词典的自动文摘系统研究与实现[J];情报学报;1997年06期
9 刘挺,吴岩,王开铸;基于信息抽取和文本生成的自动文摘系统设计[J];情报学报;1997年S1期
10 吴岩,李秀坤,王开铸;HIT-97Ⅰ型英文自动文摘系统[J];情报学报;1998年05期
中国博士学位论文全文数据库 前1条
1 郑义;多媒体信息自动摘要及其相关技术研究[D];复旦大学;2003年
中国硕士学位论文全文数据库 前3条
1 夏洪斌;基于知识分词算法的病案全文检索系统[D];第二军医大学;2004年
2 明廷波;基于神经网络的Web信息抽取系统的研究与实现[D];电子科技大学;2006年
3 程娟;中文文档自动摘要技术[D];山东大学;2006年
,本文编号:730314
本文链接:https://www.wllwen.com/wenshubaike/mishujinen/730314.html