基于CEF的页面分割算法的研究

发布时间:2020-08-08 16:07
【摘要】:当前,对Deep Web数据自动抽取的研究已经有不少的研究成果。相比其他方法,基于网页视觉信息的方法取得了更好的效果。它摆脱了网页DOM树的依赖,只利用网页的视觉信息抽取数据,提高了抽取的准确性。然而,利用视觉信息抽取Deep Web数据的方法需要先将网页划分为单独的视觉块。目前,已经有许多方法可以实现对网页的划分。在这些方法中,VIPS算法(基于视觉信息的页面分割算法)取得的效果是最好的。相比于其他的方法,VIPS算法不依赖网页的结构,即使网页结构发生变化,VIPS算法也能取得很好的效果。鉴于VIPS算法的优点,本文采用VIPS算法实现了对网页的分割。为了提高效率,本文选择在CEF (Chromium Embedded Framework)框架中实现VIPS算法,并在CEF框架中实现了对页面结点视觉信息的获取。本文主要工作如下:(1)视觉块抽取。首先利用JS获取页面结点的视觉信息。然后利用这些视觉信息结合给定的启发式规则判断DOM结点是否可以被继续分割,将不能被分割的DOM结点作为一个视觉块存放在集合中。(2)分隔条探测。首先将整个页面当作一个分隔条,根据已经得到的视觉块计算出分隔条的位置和大小。然后根据视觉块与分隔条的位置关系分割、移除、修改分隔条。最后设置每个分隔条的权重。(3)内容结构构建。从权重最小的分隔条集合开始,依次合并分隔条两侧的视觉块形成一个新的视觉块。然后选择权重次小的分隔条集合并合并两侧的视觉块,以此类推,直到遇到权重最大的分隔条集合。最终,内容结构构建完成,得到该页面对应的视觉块树。实验表明,本文提出的方法可以有效的对页面进行视觉块划分。
【学位授予单位】:中国海洋大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092

【相似文献】

相关期刊论文 前10条

1 张艳滨;余雁;;视觉信息的多维性探究[J];大众文艺;2013年04期

2 张恒;刘艳丽;;基于视觉信息融合的驾驶员疲劳监测方法综述[J];信息技术;2008年06期

3 李刚;;视觉信息传递的模糊性[J];美术大观;2010年03期

4 寿天德;尹德辉;;关于图形、图像与脑对视觉信息的处理[J];临沂师范学院学报;2010年01期

5 ;非电话类服务[J];视听界;1991年03期

6 韩丛耀;;中华艺术视觉信息数据库建设构想(上)——视觉信息处理机制的建模及在视觉信息数据库建设中的应用[J];中国教育信息化;2009年17期

7 王苗辉;;基于视知觉的视觉信息界面设计研究[J];包装工程;2011年08期

8 汪云九,邢静;视觉信息加工的一些理论和模型[J];机器人;1987年03期

9 刁云程;“视觉信息加工”研究圆满结束[J];中国科学基金;1994年01期

10 陈果;张武昕;高隽;;微小目标的视觉信息获取及系统设计[J];合肥工业大学学报(自然科学版);2007年12期

相关会议论文 前10条

1 何芸;杜诚;;21世纪的视觉信息技术[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年

2 翁强;闫丽;翁伟生;;多维空间感知觉模型对视觉信息加工缺损的研究[A];第十一次中国生物物理学术大会暨第九届全国会员代表大会摘要集[C];2009年

3 刘力;龚海韵;;果蝇蘑菇体对视觉信息的归纳作用[A];首届中国神经信息学讨论会摘要[C];2000年

4 孙明;;视觉信息学的基本概念及其新技术在农业中的应用[A];中国农业工程学会2011年学术年会论文集[C];2011年

5 王书荣;;视觉信息加工中的神经元相互作用[A];第九次全国生物物理大会学术会议论文摘要集[C];2002年

6 苏润娥;吉国明;宋笔锋;;人的视觉信息捕捉能力测试软件[A];陕西省航空装备制造技术发展——第九届陕西省青年科学家论坛论文集[C];2006年

7 杨瑾;李潇;王书荣;;家鸽背外侧丘脑神经元参与外侧单眼视觉和环境亮度检测[A];第九次全国生物物理大会学术会议论文摘要集[C];2002年

8 张春宇;张蔚;刘海鹏;于立平;王小捷;李睿凡;;基于视觉信息的汉语词汇语义习得[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

9 唐克伦;张湘伟;成思源;熊汉伟;张洪;;视觉信息与CMM测量数据的融合[A];第十二届全国图象图形学学术会议论文集[C];2005年

10 李珊珊;于庆宝;冯士刚;鹿麒麟;唐一源;;视觉信息等级处理的双脑协同性研究[A];大连理工大学生物医学工程学术论文集(第2卷)[C];2005年

相关重要报纸文章 前2条

1 记者 班威;“家务机器人”能走能做家务[N];新华每日电讯;2010年

2 本报驻北京记者 李雪;北京心目影院 盲人的音画世界[N];中国文化报;2014年

相关博士学位论文 前7条

1 查正军;基于机器学习方法的视觉信息标注研究[D];中国科学技术大学;2009年

2 祝博荟;基于深度与视觉信息融合的行人检测与再识别研究[D];东华大学;2013年

3 何立火;视觉信息质量感知模型及评价方法研究[D];西安电子科技大学;2013年

4 尹显东;多维随机序列敏感视觉信息隐藏技术研究[D];电子科技大学;2007年

5 沈乔楠;堆石混凝土施工管理中视觉信息的处理方法及应用研究[D];清华大学;2010年

6 王蒙军;唇读发声器中视觉信息的检测与处理[D];天津大学;2007年

7 刘震;基于局部视觉信息的大规模图像检索研究[D];中国科学技术大学;2015年

相关硕士学位论文 前10条

1 王苗苗;联合锋电位和局部场电位的视觉信息整合特性研究[D];郑州大学;2015年

2 凡思武;基于视觉信息和树匹配的Deep Web数据抽取问题的研究[D];山东大学;2015年

3 李雯琴;基于图模型的Web表格中视觉信息的研究[D];复旦大学;2014年

4 田丽;品牌视觉信息的图形动态化创意呈现[D];南昌大学;2015年

5 胡义坦;基于视觉信息的无人机着陆参数估计技术研究[D];南京航空航天大学;2014年

6 朱冰阳;基于CEF的页面分割算法的研究[D];中国海洋大学;2015年

7 彭凌玲;视觉信息的能量[D];吉林大学;2005年

8 张e

本文编号:2785789


资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2785789.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f3f40***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com