当前位置:主页 > 科技论文 > 搜索引擎论文 >

一种基于视觉特征的Deep Web信息抽取方法

发布时间:2018-10-09 07:16
【摘要】:随着Web数据库的不断增长,大量网络信息通过普通搜索引擎难以满足用户的需求,需要用户提交表单查询并从后台数据库中返回结果页面才能获取到想要的信息,称为Deep Web。因此如何有效地抽取这些实体信息成为一个值得研究的问题。论文通过分析Deep Web结果页面的特点,结合人的视觉特征,提出了一种基于视觉特征的Deep Web信息抽取方法。该方法充分利用了人的视觉特征,在解析器将Web文档解析成语法树之前,将Web页面一些与主题无关的信息(例如导航栏、广告)等去除,并对优化后的DOM树利用VIPS算法对其进行语义分块,分块后根据位置特征首先寻找到基准视觉块,以该基准视觉块作为中心位置逆序和顺序遍历DOM树寻找所有相似的视觉块并对其进行抽取。从实验效果来看,该方法从提取信息速度和提取信息的准确率和完整率方面与传统方法相比都有一定的提高。
[Abstract]:With the continuous growth of Web database, a large amount of network information can not meet the needs of users through the ordinary search engine. It requires users to submit form queries and return the results page from the background database to get the desired information, called Deep Web.. Therefore, how to extract these entity information effectively becomes a problem worth studying. By analyzing the characteristics of the Deep Web result page and combining the human visual features, a Deep Web information extraction method based on visual features is proposed in this paper. This method makes full use of human visual features. Before parser parses Web documents into syntax trees, it removes some topic-independent information (such as navigation bar, advertising) from Web pages. The optimized DOM tree is divided into semantic blocks by using VIPS algorithm, and the reference visual blocks are first found according to the location features. The reference visual block is used as the center position to traverse the DOM tree in reverse order and order to find all the similar visual blocks and extract them. The experimental results show that this method can improve the speed of information extraction and the accuracy and completeness of information extraction.
【作者单位】: 上海师范大学;
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 石桢;姚天f ;;一种基于统计和规则的核心地名抽取方法[J];微型电脑应用;2013年02期

2 张世辉;一种新的基于距离的汉字笔画抽取方法[J];计算机工程;2003年14期

3 王大亮;涂序彦;郑雪峰;佟子健;;多策略融合的搭配抽取方法[J];清华大学学报(自然科学版);2008年04期

4 杨建明;;关系抽取方法研究[J];电子技术;2009年04期

5 孙继鹏;贾民;刘增宝;;一种面向文本的概念抽取方法的研究[J];计算机应用与软件;2009年09期

6 郑伟;吕建新;张建伟;;文本分类中特征预抽取方法研究[J];情报科学;2011年01期

7 肖明军,张巍,邹翔,蔡庆生;一种多策略联合信息抽取方法[J];小型微型计算机系统;2005年04期

8 郝博一;夏云庆;邬晓钧;郑方;刘轶;;基于泛化和繁殖的自举式意见目标抽取方法[J];清华大学学报(自然科学版);2009年S1期

9 栗春亮;朱艳辉;徐叶强;;中文产品评论中属性词抽取方法研究[J];计算机工程;2011年12期

10 蔡虹,叶水生;基于KPS的Web信息抽取[J];计算机与现代化;2005年06期

相关会议论文 前10条

1 宋涛;李素建;;基于流形排序的领域词抽取方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年

2 卞真旭;;一种关键词抽取方法研究[A];2011年安徽省智能电网技术论坛论文集[C];2011年

3 罗斐;毛宇光;;基于领域分类的查询接口模式抽取方法[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年

4 栗春亮;朱艳辉;徐叶强;;中文产品评论中属性词抽取方法研究[A];第六届全国信息检索学术会议论文集[C];2010年

5 刘昊;王健;林鸿飞;;一种模板与图核融合的蛋白质关系抽取方法[A];第六届全国信息检索学术会议论文集[C];2010年

6 翁伟;王厚峰;;基于LDA的关键词抽取方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年

7 何莉;林鸿飞;;一种面向WEB的生物医学领域英汉术语翻译对抽取方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

8 左云存;宗成庆;;基于HMM的短语翻译对抽取方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

9 王裴岩;张桂平;白宇;;一种基于核函数的技术关键词连接关系抽取方法[A];第六届全国信息检索学术会议论文集[C];2010年

10 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年

相关博士学位论文 前1条

1 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年

相关硕士学位论文 前10条

1 陈倩;基于特征模型的跨领域信息抽取方法研究[D];上海大学;2015年

2 刘骁;基于产品评论的意见抽取方法研究[D];黑龙江大学;2015年

3 吕云云;基于集成学习的中文观点句抽取方法研究[D];山西大学;2013年

4 杨云;基于句法结构的评价对象抽取方法研究[D];东北师范大学;2015年

5 方莹;基于句子聚类的信息抽取方法研究[D];山西大学;2005年

6 徐晓明;面向手机用户的社团抽取方法研究[D];吉林大学;2014年

7 李震;基于聚类的事件蕴涵抽取方法研究与实现[D];哈尔滨工业大学;2011年

8 王立;中文复述模板及搭配抽取方法研究[D];华中师范大学;2013年

9 张文文;网络文本观点句抽取方法研究[D];国防科学技术大学;2012年

10 王强;基于结构化预测模型的企业信息联合抽取方法研究[D];南京师范大学;2014年



本文编号:2258448

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2258448.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fdde5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com