当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于OWL本体构建的网页图文摘要提取算法研究

发布时间:2017-09-13 16:03

  本文关键词:基于OWL本体构建的网页图文摘要提取算法研究


  更多相关文章: 图文摘要 图片选择算法 文本摘要算法 页面本体


【摘要】:随着各种网页数据挖掘方式的发展,人们在Internet使用中能够更为快捷、精确地获取自己想要的信息。网页正文提取作为网络数据挖掘的研究热点,目前只能对网页的文本摘要进行提取,然而在人类接收的信息中,有80%来自于视觉,即图片信息,因此未来网页数据挖掘的发展趋势是人们不仅仅只需要文本摘要,也需要图片摘要。此外随着移动显示设备技术的发展,手机媒体传播信息成为了人们获取热点信息的一个重要途径,因此就更需要对网络数据进行摘要提取,以便使用手机媒体时,能够更为快捷、精准、直观地获取人们需要的信息。由此可见,未来对于网页正文提取研究的热点在于对网页的文字和图片进行摘要提取,让图片也能够像文字那样更形象化地表达出网页的重要信息。本文把这样一种新的摘要组合形式,定义为网页图文摘要。 目前,与网页图文摘要提取的相关技术已在网易新闻手机客户端、今日头条手机客户端、Zake、Flipboard等移动应用产品上投入使用,这些产品对于新闻网页的处理大同小异。但手机客户端能阅读到的新闻内容,大多还停留在新闻信息人工输入阶段,由于人工处理的繁琐性,这就使得新闻的更新速度受到了限制。另外今日头条和Zaker等产品在以列表展示新闻时,只给出了新闻标题,没有新闻图片进行展示说明,然而有的新闻正文本身存在图片,这样的处理就局限了用户的阅读需求。而Flipboard的处理方式是当新闻正文存在多张图片时,新闻列表只默认显示第一张图片。网易新闻在进行摘要提取时,仅仅只对文本进行了处理,列表中展示的部分图片在原新闻网页中有时并不存在,这样的处理方式常常给读者带来不便。 针对以上问题,本文提出了一种基于OWL本体构建的网页图文摘要算法(Extracting the Graphic-Text Abstract of Webpage Based on OWL,EGTAO)。本算法首先利用网络本体语言(Web Ontology Language,OWL)构建网页页面本体模型;然后根据该模型分别利用文本摘要算法和图片选择算法对文本和图片进行提取,在提取过程中,充分考虑文本、图片的语义特性,实现更为准确化、更为人性化的图文摘要提取。本文的研究工作主要包括以下三个方面: 第一,本文使用网络本体语言(Web Ontology Language, OWL)构建OWL网页页面本体模型(Ontology Model of WebPage, OMW).在基于传统的DOM Tree表示网页结构的基础上,通过对网页各部分信息进行分类,建立各部分之间的属性关系ObjectProperty,然后通过这些属性关系将网页各部分关联起来,最终得到OWL网页页面本体模型。在此过程中使用了Protege本体构建工具,它能够清晰地展示出网页各部分之间的关联。 第二,本文使用网页图片选择算法对网页文正文部分的图片进行图片选择。本图片选择算法在基于OWL页面本体模型的基础之上,通过遍历模型,提取图片的语义属性及图片在网页中的alt属性,将影响图片提取的多个影响因素都结合起来进行归一化处理,优化最终的影响因素,最终选取得到对网页正文最具代表性的图片。 第三,本文使用网页文本摘要提取算法对网页正文部分的文本进行文本摘要的提取。本文本摘要算法在基于OWL页面本体模型的基础之上,结合传统的基于DOM Tree的网页正文提取算法,通过遍历模型,提取文本的主题关键词、主题标题、主题句等语义属性,将影响文本提取的多个影响因素都结合起来进行归一化处理,优化最终的影响因素,最终提取得到对网页正文最具代表性的文本。 实验结果表明,与传统的方法相比,本文提出的基于OWL本体构建的网页图文摘要提取算法在图文摘要提取领域中,具有更好的准确性、代表性和提取内容相关性。本文所提到的图文摘要,特别是图片提取部分的研究,对未来移动应用的发展、移动设备的跨屏技术以及搜索引擎的搜索效率的提高具有一定的促进作用,同时对推进网页数据挖掘研究从理论层面过度到工业实现层面也具有较积极的意义。
【关键词】:图文摘要 图片选择算法 文本摘要算法 页面本体
【学位授予单位】:西南大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092;TP391.1
【目录】:
  • 摘要5-7
  • Abstract7-9
  • 第1章 绪论9-15
  • 1.1 选题背景和意义9-10
  • 1.2 国内外研究现状10-12
  • 1.2.1 国外研究现状10-11
  • 1.2.2 国内研究现状11-12
  • 1.3 论文的主要工作12-13
  • 1.4 论文的组织结构13-15
  • 第2章 相关理论15-27
  • 2.1 本体15-23
  • 2.1.1 本体的概念15-17
  • 2.1.2 本体描述语言17-20
  • 2.1.3 本体的构建方法与工具20-21
  • 2.1.4 本体的应用21
  • 2.1.5 网页结构本体表示21-23
  • 2.2 摘要提取技术23-25
  • 2.2.1 摘要的分类23-24
  • 2.2.2 摘要提取技术的分类24-25
  • 2.3 本章小结25-27
  • 第3章 基于OWL本体构建的网页图文摘要提取算法研究27-47
  • 3.1 问题分析27-29
  • 3.1.1 网页文本摘要问题分析27-28
  • 3.1.2 网页图片选择问题分析28-29
  • 3.2 EGTAO总体思想29-30
  • 3.3 构建网页页面本体模型OMW30-37
  • 3.3.1 OMW相关定义及形式化30-32
  • 3.3.2 OMW构建过程32-37
  • 3.4 网页图片选择算法37-42
  • 3.4.1 网页图片选择算法概述37
  • 3.4.2 网页图片选择算法参数分析37-39
  • 3.4.3 网页图片选择算法39-42
  • 3.5 网页文本摘要算法42-46
  • 3.5.1 网页文本摘要算法概述42
  • 3.5.2 网页文本摘要算法参数分析42-43
  • 3.5.3 网页文本摘要算法43-46
  • 3.6 图文摘要合成46
  • 3.7 本章小结46-47
  • 第4章 实验47-55
  • 4.1 实验方案47
  • 4.2 实验准备47-49
  • 4.3 实验的实现及评价49-55
  • 4.3.1 实验结果比较49-51
  • 4.3.2 实验结果分析51-55
  • 第5章 结束语55-57
  • 5.1 本文的工作总结55-56
  • 5.2 将来的工作展望56-57
  • 参考文献57-61
  • 致谢61-63
  • 在学校期间所发表的论文63

【共引文献】

中国期刊全文数据库 前10条

1 谭娟;李伯虎;;面向语义的C4ISR/Sim集成系统设计[J];北京航空航天大学学报;2006年10期

2 张德政;阿孜古丽;刘洁卉;;基于图分析的领域知识获取技术[J];北京科技大学学报;2007年S2期

3 唐培丽,王树明,胡明;基于语义的汉语文献主题词提取算法研究[J];吉林大学学报(信息科学版);2005年05期

4 唐培丽;解飞;陈志雨;;基于概念检索的中文搜索引擎研究[J];长春大学学报;2006年04期

5 张泽清;;基于领域本体的语义检索技术研究[J];赤峰学院学报(自然科学版);2011年06期

6 张泽清;;基于Ontology的人力资源语义检索技术研究[J];长春理工大学学报(自然科学版);2011年02期

7 李雪瑞;赵冬青;;空间信息本体的开发[J];测绘科学;2006年03期

8 魏震方;王世华;沈华;;位置服务上下文计算本体形式化实现方法[J];测绘科学;2010年01期

9 林周佳;;基于语义网技术的数字化档案馆研究[J];档案与建设;2006年04期

10 刘光蓉;;“C程序设计”课程内容本体构建[J];电化教育研究;2008年12期

中国重要会议论文全文数据库 前10条

1 毕鲁雁;焦宗夏;范圣韬;赵四军;;基于本体的机载机电系统故障诊断研究[A];第五届全国流体传动与控制学术会议暨2008年中国航空学会液压与气动学术会议论文集[C];2008年

2 张德政;刘洁卉;;基于图分析的领域知识获取技术[A];着力提高高等教育质量,努力增强高校创新与服务能力——北京市高等教育学会2007年学术年会论文集(上册)[C];2008年

3 王宏生;赵文;张路;;基于DOM解析的OWL本体关系数据库存储模式设计[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年

4 王丹;赵荣娟;;P2P系统中一种基于代理的RDF文档查询模型[A];2006年全国开放式分布与并行计算学术会议论文集(二)[C];2006年

5 汪婷婷;吴军华;朱莹;刘一田;;基于RDF/XML的网格资源分层描述[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年

6 蒋鹏;;基于本体的电子政务文档智能检索方法的研究[A];信息经济学与电子商务:第十三届中国信息经济学会学术年会论文集[C];2008年

7 林建祥;;LOGO思想与可拓、创新、智慧[A];第六届中国科学家论坛论文汇编[C];2007年

8 胡金柱;舒江波;陈志伟;杜志强;窦桂琴;;基于本体构件的工作流检索研究[A];第四届中国软件工程大会论文集[C];2007年

9 王红滨;刘大昕;;元数据提取综述[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年

10 王浩然;徐建良;张巍;;一种XML元数据的自动语义标注方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年

中国博士学位论文全文数据库 前10条

1 胡沙;面向服务的模具企业信息系统集成平台关键技术研究[D];华中科技大学;2010年

2 陈一稀;基于关系数据库的遗留系统向语义Web移植的研究[D];浙江大学;2010年

3 聂雪军;内容感知存储系统中信息信息生命周期管理关键技术研究[D];华中科技大学;2011年

4 张珊;REST式GIS服务聚合研究及软件开发[D];华东师范大学;2011年

5 汪楚娇;语义环境下提升机故障人工免疫诊断方法研究[D];中国矿业大学;2010年

6 李淑霞;地名本体及其在地理空间数据组织中的应用研究[D];解放军信息工程大学;2009年

7 张小旺;超协调描述逻辑[D];北京大学;2011年

8 尹胜;网络化协作加工资源优化配置方法及其加工支持系统研究[D];重庆大学;2011年

9 聂雪军;内容感知存储系统中信息生命周期管理关键技术研究[D];华中科技大学;2010年

10 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年

中国硕士学位论文全文数据库 前10条

1 赵永华;多学科本体构建与集成技术研究[D];山东科技大学;2010年

2 杨立志;基于语义网的图像检索算法的研究[D];广西师范学院;2010年

3 肖好冰;本体构建与网络交流平台的设计与实现[D];中国海洋大学;2010年

4 芦荣松;基于产品研发的IGDSS知识表示及其推理机制研究[D];中国海洋大学;2010年

5 雷傲雄;基于本体的面向服务架构建模研究[D];江西师范大学;2010年

6 毛敏芹;对搜索引擎扩充语义信息功能方法研究[D];华东师范大学;2010年

7 赵少华;基于本体论的汽车故障诊断知识建模及知识系统的研究[D];华东理工大学;2011年

8 胡青;语义目录的实现机制研究[D];武汉科技大学;2010年

9 龚华明;旅游本体知识库的构建及推理应用研究[D];昆明理工大学;2009年

10 罗晓丽;面向语义Web服务的分布式服务发现研究[D];解放军信息工程大学;2009年



本文编号:844657

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/844657.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8d21e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com