基于视觉特征和文本结构分析的中文网页自动摘要技术研究
本文关键词:基于视觉特征和文本结构分析的中文网页自动摘要技术研究,由笔耕文化传播整理发布。
【摘要】:随着国际互联网越来越深入我们的生活,互联网上已经聚集了海量的文本资料,而且仍在爆炸性的增长。为了快速准确的帮助用户查找到需要的内容,传统的解决方案是使用搜索引擎。搜索引擎根据用户的搜索短语给出一个网页的列表,并结合网页自动文摘技术,快速处理每一篇网页,概括出其核心内容并附在文档标题后,供用户筛选出有价值的文档。 然而现有的搜索引擎摘要系统的质量较低,仅仅基于统计方法,摘取网页中和搜索短语匹配字句的附近若干句子,既不能体现该文档的主题思想,也不能很好的根据用户的搜索短语筛选出用户需要的信息。 针对这些不足,本文提出了一种基于视觉特征和文本结构分析的中文网页自动摘要方法。由于网页中包含了大量和网页主题不相关的内容,例如广告链接、导航菜单、版权信息等,首先需要从网页中提取出正文。本文采用了基于视觉特征的网页正文提取思想,提出了一种正文提取方法:先对网页完整渲染,然后模拟用户通过视觉感知了解网页布局的过程,将页面分割成若干个区块,然后从中寻找包含正文的区块,最后通过二次清洗剔除穿插在正文中的广告。这种方法能够适应目前网页随着Web技术的快速发展,变得越来越复杂的趋势,避免了同类研究由于HTML结构和实际的视觉结构完全不同导致抽取失败的情况。 词汇相关度分析对自动摘要有着重要意义,本文提出了一种基于义素图的词汇语义相关度计算方法。采用知网信息构造包含义项和义素的义素图,然后基于人的认知,采用一种扩展的随机游走算法计算词汇之间直接和间接的相关性。 在以上工作的基础上,本文采用拟人思维,给出了一种基于关联图分析和文本结构分析的自动摘要方法。该方法首先采用文本物理结构分析技术和文本结构分析方法将文档分割成若干个语义段,然后针对每个语义段,提出了一种基于关联图分析的主题词提取方法,对各语义段提取主题词集合。然后根据主题词的指导,结合TF-IDF方法和内容相关性分析提取各语义段的摘要。最后根据用户搜索词对摘要进行筛选,生成摘要。 基于以上方法,作者实现了一个面向搜索引擎的自动文摘系统,论文成果成功应用在上海市国际科技合作基金项目基于语义扩展及关系挖掘的智能搜索引擎研究上。 实验证明,本文算法给出的摘要质量较高,并且满足了用户的筛选要求。
【关键词】:自动摘要 网页 正文提取 义素图 随机游走 语义相关度 文本结构分析
【学位授予单位】:华东师范大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3;TP393.092
【目录】:
- 内容摘要6-8
- ABSTRACT8-13
- 第一章 绪论13-20
- 1.1. 引言13
- 1.2. 研究的背景与意义13-14
- 1.3. 研究发展现状14-16
- 1.4. 关键技术16
- 1.5. 本文的研究内容16-17
- 1.6. 本文的特色与创新之处17-18
- 1.7. 本文的组织18-20
- 第二章 相关研究工作20-30
- 2.1. 自动文摘技术综述20-27
- 2.1.1. 文本自动摘要分类20-21
- 2.1.2. 文本自动摘要主要方法21-25
- 2.1.3. 文本自动摘要的预处理和后处理方法25-26
- 2.1.4. 自动摘要评价方法26-27
- 2.2. 网页正文提取技术概述27-28
- 2.3. 词汇语义相关度计算涉及的技术28-29
- 2.3.1. 随机游走、pagerank和稳定分布28
- 2.3.2. 知网和义原28-29
- 2.4. 本章小结29-30
- 第三章 网页正文提取方法30-37
- 3.1. 网页正文提取31-34
- 3.2. 举例与实验分析34-36
- 3.3. 本章小结36-37
- 第四章 基于义素图的词汇语义相关度计算37-48
- 4.1. 引言37-39
- 4.2. 相关工作39-40
- 4.3. 义素与知网40
- 4.4. 基于义素图的扩展随机游走模型40-45
- 4.4.1. 义素图的构建41-43
- 4.4.2. 改进的随机游走算法43-45
- 4.5. 评价45-47
- 4.6. 本章小结47-48
- 第五章 基于文本结构分析的自动摘要方法48-62
- 5.1. 文本物理结构分析48-50
- 5.2. 基于义素图的主题词提取50-53
- 5.3. 词向量语义匹配方法53-54
- 5.4. 基于内容相关度的文本结构分析54-55
- 5.5. 自动摘要流程55-59
- 5.5.1. 基于文本结构分析的自动摘要方法55-57
- 5.5.2. 实验举例57-59
- 5.6. 面向查询的自动摘要59-61
- 5.6.1. 搜索短语59
- 5.6.2. 兼顾搜索短语要求和文章主题的自动文摘方法59-61
- 5.7. 文摘后处理61
- 5.8. 本章小结61-62
- 第六章 网页自动摘要系统的设计、实现和准确度测试62-69
- 6.1. 系统关键部件设计62-67
- 6.1.1. 系统主要功能模块62-64
- 6.1.2. 系统设计64-66
- 6.1.3. 系统接口66-67
- 6.2. 本文自动摘要方法的准确度测试67-68
- 6.3. 本章小结68-69
- 第七章 自动摘要在元搜索引擎中的应用69-73
- 7.1. 总体架构69-70
- 7.2. 实际应用效果70-71
- 7.3. 元搜索去重71
- 7.4. 元搜索排序71-72
- 7.5. 本章小结72-73
- 第八章 总结与展望73-75
- 8.1. 全文工作总结73
- 8.2. 未来工作展望73-75
- 附录一 作者攻读硕士学位期间发表的学术论文75-76
- 附录二 作者攻读硕士学位期间参与的科研项目76-77
- 参考文献77-79
- 后记79
【参考文献】
中国期刊全文数据库 前10条
1 龚书;瞿有利;田盛丰;;基于语义的自动文摘研究综述[J];北京交通大学学报;2009年05期
2 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
3 刘挺,王开铸;基于篇章多级依存结构的自动文摘研究[J];计算机研究与发展;1999年04期
4 蒋效宇;樊孝忠;陈康;;基于用户查询的中文自动文摘研究[J];计算机工程与应用;2008年05期
5 刘功申,王永成,许一震;小标题识别的意义和方法[J];计算机工程;2002年06期
6 王利;刘宗田;王燕华;廖涛;;基于内容相似度的网页正文提取[J];计算机工程;2010年06期
7 李建锋;陈佳良;张美华;;一种基于聚类-遗传算法的文摘提取方法研究[J];计算技术与自动化;2007年03期
8 宋今,赵东岩;基于语料库与层次词典的自动文摘研究(英文)[J];软件学报;2000年03期
9 曾淑琴;吴扬扬;;基于HowNet的词语相关度计算模型[J];微型机与应用;2012年08期
10 刘春;黄定光;;本体初探[J];现代情报;2008年01期
中国博士学位论文全文数据库 前2条
1 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
2 钟茂生;基于内容相关度计算的文本结构分析方法研究[D];上海交通大学;2010年
本文关键词:基于视觉特征和文本结构分析的中文网页自动摘要技术研究,,由笔耕文化传播整理发布。
本文编号:378808
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/378808.html