结合主动学习的多记录网页属性抽取方法
本文关键词:结合主动学习的多记录网页属性抽取方法,由笔耕文化传播整理发布。
【摘要】:属性抽取可分为对齐和语义标注两个过程,现有对齐方法中部分含有相同标签不同语义的属性会错分到同一个组,而且为了提高语义标注的精度,通常需要大量的人工标注训练集.为此,文中提出结合主动学习的多记录网页属性抽取方法.针对属性错分问题,引入属性的浅层语义,减少相同标签语义不一致的影响.在语义标注阶段,基于网页的文本、视觉和全局特征,采用基于主动学习的SVM分类方法获得带有语义的结构化数据.同时在主动学习的策略选择方面,通过引入样本整体信息,构建基于不确定性度量的策略,选择语义分类预测不准的样本进行标注.实验表明,在论坛、微博等多个数据集上,相比现有方法,文中方法抽取效果更好.
【作者单位】: 福州大学物理与信息工程学院;福建江夏学院电子信息科学学院;福州大学数学与计算机科学学院;福州大学福建省网络计算与智能信息处理重点实验室;
【关键词】: 属性抽取 语义分类 主动学习
【基金】:国家自然科学基金青年基金项目(No.61300105) 教育部博士点基金联合项目(No.2012351410010) 福建省科技重大专项项目(No.2013H6012) 福州市科技计划项目(No.2013-PT-45,2012-G-113)资助~~
【分类号】:TP391.1;TP393.092
【正文快照】: Supported by Young Scientists Found of National Natural Science Foundation of China(No.61300105),Joint Ph.D.Programs Foun-dation of Ministry of Education of China(No.2012351410010),Key Project of Science and Technology of Fujian Province(No.2013H6012),Pr
【相似文献】
中国期刊全文数据库 前10条
1 吕英杰;叶强;李一军;;模糊综合评判理论在网页自动分类中的应用[J];计算机工程;2007年15期
2 张俊英;胡侠;卜佳俊;;网页文本信息自动提取技术综述[J];计算机应用研究;2009年08期
3 宋明秋;张瑞雪;吴新涛;李文立;;网页正文信息抽取新方法[J];大连理工大学学报;2009年04期
4 张霞亮;陈家骏;;基于逻辑行和最大接纳距离的网页正文抽取[J];计算机工程与应用;2009年25期
5 周序生;李爽;;网页自动分类的建模与仿真研究[J];计算机仿真;2011年10期
6 张小娣;宋余庆;;基于网页正文逻辑段落和长句提取的网页去重算法[J];图书情报研究;2012年02期
7 周杨;;基于关键长句及正文长度预分类的网页去重算法研究[J];软件导刊;2012年10期
8 黄玲;陈龙;;基于网页分块的正文信息提取方法[J];计算机应用;2008年S2期
9 刘娟;赵晓楠;;网页主题相关性判别的聚焦爬虫系统的设计与实现[J];计算机与现代化;2012年10期
10 任玉;樊勇;郑家恒;;基于分块的网页主题文本抽取[J];广西师范大学学报(自然科学版);2009年01期
中国重要会议论文全文数据库 前5条
1 唐超;刘辰;杨正球;;使用多层迭代分析和分类网页文档的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
2 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
3 刘菁菁;林鸿飞;;基于结构和链接扩展的中文网页分类研究[A];2007年全国开放式分布与并行计算机学术会议论文集(上册)[C];2007年
4 张志强;梁婷婷;谢晓芹;;一种基于用户标记的搜索结果排序算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
5 朱春江;陆宇e,
本文编号:492375
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/492375.html