当前位置:主页 > 管理论文 > 移动网络论文 >

一种基于SVM和AdaBoost的Web实体信息抽取方法

发布时间:2018-11-09 10:16
【摘要】:提出一种基于SVM和AdaBoost的Web实体信息抽取方法。首先提出一种基于SVM的Web页面主数据区域识别方法,基于Web实体实例在页面中的展示特征,有效地将Web页面进行数据区域分割,识别出Web实体实例所在的主数据区域;然后基于Web实体属性标签的特征,提出一种基于AdaBoost的集成学习方法,从页面的主数据区域自动地抽取Web实体信息。在两个真实数据集上进行实验,并与相关研究工作进行比较,实验结果说明该方法能够取得良好的抽取效果。
[Abstract]:A Web entity information extraction method based on SVM and AdaBoost is proposed. Firstly, a method of Web page main data area recognition based on SVM is proposed. Based on the display feature of Web entity instance in the page, the Web page is effectively divided into the data region, and the main data region of Web entity instance is identified. Then, based on the features of Web entity attribute label, an integrated learning method based on AdaBoost is proposed to extract Web entity information automatically from the main data area of the page. Experiments were carried out on two real data sets and compared with related research results. The experimental results show that the proposed method can achieve good results.
【作者单位】: 山东大学计算机科学与技术学院;中国人力资源和社会保障部信息中心;
【基金】:国家科技支撑计划项目(2008BAH32B01)
【分类号】:TP393.09;TP18

【参考文献】

相关期刊论文 前3条

1 胡东东,孟小峰;一种基于树结构的Web数据自动抽取方法[J];计算机研究与发展;2004年10期

2 丁艳辉;李庆忠;董永权;彭朝晖;;基于集成学习和二维关联边条件随机场的Web数据语义标注方法[J];计算机学报;2010年02期

3 杨少华;林海略;韩燕波;;针对模板生成网页的一种数据自动抽取方法(英文)[J];软件学报;2008年02期

【共引文献】

相关期刊论文 前10条

1 赵靖;王侨文;管马周;单传佳;;自动提取布局结构相似网页的结构化信息[J];安徽科技学院学报;2010年06期

2 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期

3 袁鸿雁;;基于本体的HTML表格识别技术的研究[J];长春工程学院学报(自然科学版);2010年01期

4 何友全;徐澄;徐小乐;唐华姣;;一种基于统计学特征和DOM树的网页去噪技术[J];重庆理工大学学报(自然科学版);2011年01期

5 李舒晨;刘云;李勇;;网络舆情分析中网页信息预处理方案的实现[J];电脑与电信;2008年10期

6 杜茂康;李韶华;刘苗;;基于MEDL模型的HTML向XML的转换方法[J];重庆邮电大学学报(自然科学版);2012年06期

7 邓绪斌;朱扬勇;;ReDE:一个基于正则表达式的生物数据抽取方法[J];计算机研究与发展;2005年12期

8 李石君;于俊清;欧伟杰;;基于HTML模式代数的Web信息提取方法[J];计算机研究与发展;2006年09期

9 寇月;李冬;申德荣;于戈;聂铁铮;;D-EEM:一种基于DOM树的Deep Web实体抽取机制[J];计算机研究与发展;2010年05期

10 王宇;谭松波;廖祥文;曾依灵;;基于扩展领域模型的有名属性抽取[J];计算机研究与发展;2010年09期

相关会议论文 前2条

1 袁鸿雁;;Web表格信息抽取技术的研究[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年

2 闫中敏;李庆忠;彭朝晖;董永权;丁艳辉;张永新;徐秀星;;DWDIS:面向分析的Deep Web数据集成系统[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

相关博士学位论文 前10条

1 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年

2 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年

3 高恒振;高光谱遥感图像分类技术研究[D];国防科学技术大学;2011年

4 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年

5 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年

6 徐和祥;Deep Web集成中若干技术研究[D];复旦大学;2008年

7 赵朋朋;Deep Web信息集成若干关键技术研究[D];苏州大学;2008年

8 方巍;基于本体的Deep Web信息集成关键技术研究[D];苏州大学;2009年

9 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年

10 丁艳辉;面向Web数据集成的数据抽取问题研究[D];山东大学;2010年

相关硕士学位论文 前10条

1 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年

2 沙有闯;基于Web文本挖掘的网络口碑监测系统研究[D];安徽大学;2010年

3 高永胜;基于树形结构的网页数据抽取模式研究及应用[D];大连理工大学;2011年

4 解涛;精确Web信息抽取集成模型与关键技术研究[D];南京大学;2011年

5 马燕;基于快速相似度的Web结构挖掘的研究[D];南京信息工程大学;2011年

6 罗伟;Web数据集成中包装器自适应方法研究[D];山东大学;2011年

7 徐秀星;Web数据集成中全局模式构建方法研究[D];山东大学;2011年

8 邓蓉;基于本体的深度搜索系统关键词库的构造与研究[D];江西师范大学;2011年

9 周p,

本文编号:2320116


资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2320116.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9b778***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com