基于分块重要度和二维条件随机场的Web信息抽取
本文关键词:基于分块重要度和二维条件随机场的Web信息抽取 出处:《南京大学学报(自然科学)》2014年01期 论文类型:期刊论文
更多相关文章: Web对象 信息抽取 网页分块 分块重要度模型 二维条件随机场
【摘要】:网页分块方法使得Web信息抽取的单位由原来的页面缩小为分块.结合分块重要度模型与二维条件随机场的优点,提出一种Web对象信息抽取方法.该方法利用分块重要度模型对网页分块进行重要度标注,过滤掉大量与主题无关信息,更加准确的定位待抽取信息的位置.二维条件随机场模型相比传统的线性条件随机场模型更好的适应了网页分块的二维结构,有效的提高信息抽取准确率.实验结果表明,该方法对Web对象信息抽取具有良好的效果.
[Abstract]:The Web information extraction unit from the original page down to block block method ". Combining the advantages of the block importance model and 2D CRFs, proposes a Web information extraction method. This method uses the block importance model of" block of marking, and filter out a lot of irrelevant information, more accurate positioning information to be extracted. The position of 2D conditional random field model compared to the traditional linear conditional random field model is better adapted to the two-dimensional structure of page segmentation, improve the accuracy of information extraction effectively. The experimental results show that this method has a good effect on Web information extraction.
【作者单位】: 江南大学物联网工程学院;
【基金】:国家自然科学基金(61202312,61170121)
【分类号】:TP393.09
【正文快照】: 随着科技的高速发展,网络上的信息呈爆炸式增长,这其中很大一部分是描述现实世界对象的信息,例如书、电脑、衣服等等,这样一类由多个数据元素及属性标签按照特点模式组织在一起的半结构化数据对象称之为Web对象[1,2].如果将这些大量的Web对象信息从网页中抽取出来并存储于数
【参考文献】
相关期刊论文 前2条
1 顾韵华;田伟;;基于DOM模型扩展的Web信息提取[J];计算机科学;2009年11期
2 韩先培;刘康;赵军;;基于布局特征与语言特征的网页主要内容块发现[J];中文信息学报;2008年01期
【共引文献】
相关期刊论文 前10条
1 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期
2 管翠萍;;药物靶标G蛋白偶联受体的识别预测[J];安徽农业科学;2010年24期
3 刘婷婷;;基于支持向量机的水稻纹枯病识别研究[J];安徽农业科学;2011年28期
4 高闯;王立东;周世宇;;基于支持矢量机的宫颈细胞分类[J];辽宁科技大学学报;2009年03期
5 汪廷华;田盛丰;黄厚宽;廖年冬;;样本属性重要度的支持向量机方法[J];北京交通大学学报;2007年05期
6 尚磊;刘风进;;基于支持向量机的手写体数字识别[J];兵工自动化;2007年03期
7 胡淑燕;郑钢铁;;应用支持向量机的眼睑参数疲劳预测[J];北京航空航天大学学报;2009年08期
8 王自强;段爱玲;张德贤;;基于自适应核函数的支持向量数据描述算法[J];北京化工大学学报(自然科学版);2008年02期
9 陈增照;杨扬;董才林;何秀玲;;支持向量机动态学习方法及其在票据识别中的应用[J];北京科技大学学报;2006年02期
10 郭辉;刘贺平;王玲;;基于最小二乘支持向量机对偶优化问题的核偏最小二乘[J];北京科技大学学报;2006年08期
相关博士学位论文 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
3 柏坚;非线性数学地质模型研究及在滇东南金矿成矿预测中的应用[D];中国地质大学(北京);2010年
4 姚志明;基于步态触觉信息的身份识别研究[D];中国科学技术大学;2010年
5 陈志国;基于群体智能的机器视觉的关键技术研究[D];江南大学;2010年
6 张目;高技术企业信用风险影响因素及评价方法研究[D];电子科技大学;2010年
7 宋国明;基于提升小波及SVM优化的模拟电路智能故障诊断方法研究[D];电子科技大学;2010年
8 刘建明;古代壁画图像保护与智能修复技术研究[D];浙江大学;2010年
9 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
10 李卓;图像信息隐藏与隐写分析算法的研究[D];浙江大学;2010年
相关硕士学位论文 前10条
1 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
2 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
3 江达秀;基于HMAX模型的人脸表情识别研究[D];浙江理工大学;2010年
4 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
5 刘松;基于OCSVM和主动学习的DDOS攻击分布式检测系统[D];郑州大学;2010年
6 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
7 方宇;小波支持向量机在交通流预测中的应用研究[D];大连理工大学;2010年
8 梁怀志;基于嵌入式的车型分类系统的设计与实现[D];大连理工大学;2010年
9 李林;基于可靠性的TBM刀盘轻量化设计[D];大连理工大学;2010年
10 李艳萍;基于自主学习的移动机器人质心偏移控制策略[D];大连理工大学;2010年
【二级参考文献】
相关期刊论文 前3条
1 冯艳为;王成良;;基于Web部件的个性化网站创建技术[J];重庆工学院学报(自然科学版);2008年02期
2 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
3 高强;张敬之;耿桦;潘金贵;;基于重复模式的Web信息抽取[J];计算机科学;2007年04期
【相似文献】
相关期刊论文 前10条
1 于薇;;包装器的自动生成方法介绍[J];才智;2009年28期
2 祝伟华;卢熠;刘斌斌;;基于HMM的Web信息抽取算法的研究与应用[J];计算机科学;2010年02期
3 王立建;尹四清;;基于Web页面有效信息抽取的分类方法[J];电脑开发与应用;2010年06期
4 仲华;崔志明;;基于XML的信息抽取和多层向量空间技术研究[J];计算机技术与发展;2007年07期
5 耿焕同;宋庆席;何宏强;;一种基于视觉分块的Web信息抽取方法研究[J];情报理论与实践;2009年03期
6 钟艳花,余伟红,余永权;Web文本挖掘系统及其关键技术研究[J];计算机工程与应用;2003年34期
7 王胜,朱明;基于最大熵马尔可夫模型的地址信息抽取[J];计算机工程与应用;2005年21期
8 苗颖;;Web页面信息自主抽取技术的研究[J];中国科技信息;2007年23期
9 彭文滔;叶飞跃;李霞;员红娟;;信息抽取中基于DOM树的过滤器方法的研究[J];微计算机信息;2008年30期
10 韩普;王泽;;基于重复模式的论坛信息抽取研究[J];南京师范大学学报(工程技术版);2010年03期
相关会议论文 前10条
1 崔欣辰;曲宁;陈青华;;隐马尔可夫模型在Web信息抽取中的几点改进[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
2 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
3 徐云风;蒋文蓉;;Web页面信息抽取的分析与研究[A];IT服务促进企业信息化——第十一届中国Java技术及应用交流大会文集[C];2008年
4 张文东;袁春风;武港山;;基于视觉的网页数据抽取[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
5 王海燕;谷明哲;王静;孟小峰;;基于预定义模式的Web信息抽取[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 杨高峰;杨岳湘;;基于RSS的个性化科技信息聚合门户的设计与实现[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
7 陈少飞;郝亚南;李天柱;张志强;张波;;Web信息抽取规则的优化[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
8 陈滢;张宜红;王能斌;;Web视图技术研究[A];第十六届全国数据库学术会议论文集[C];1999年
9 陈佳;王腾蛟;;基于相关实例的异构网页提取模式的自动发现[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
10 周春姐;孟小峰;文洁;;Flickr中的复合事件检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
相关重要报纸文章 前9条
1 沈生;网关防毒需要“代理”加速[N];中国计算机报;2004年
2 英特尔(中国)有限公司系统工程师 尤晋;高速缓存在宽带网中的应用[N];网络世界;2001年
3 李刚;不能牺牲性能[N];中国计算机报;2004年
4 马志彦;Lotus平台,便宜还是贵?[N];中国计算机报;2002年
5 ;服务器端缓存提速电子商务[N];网络世界;2000年
6 ;放心地实施业务应用[N];中国计算机报;2000年
7 安徽 朱军;用FrontPage 2000组建中文论坛[N];中国电脑教育报;2000年
8 ;Internet存储技术[N];网络世界;2001年
9 方圆;省钱提速大法[N];中国计算机报;2000年
相关博士学位论文 前10条
1 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
2 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
3 何召卫;受限本体相似[D];北京邮电大学;2008年
4 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
5 方巍;基于本体的Deep Web信息集成关键技术研究[D];苏州大学;2009年
6 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
7 宋鑫莹;网络信息自动化高效抽取技术研究[D];哈尔滨工业大学;2013年
8 傅魁;基于Web的本体学习研究[D];武汉理工大学;2007年
9 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
10 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
相关硕士学位论文 前10条
1 杨柱;基于DIV标签树的网页主题信息抽取方法[D];湖南大学;2010年
2 田红;表格信息抽取引擎的设计与实现[D];西北师范大学;2004年
3 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
4 张志强;Web信息抽取技术研究与基于Web service的实现[D];河北大学;2004年
5 王花;Web信息抽取技术研究[D];西北农林科技大学;2010年
6 杨秀丽;基于网页内容分析的Web信息抽取技术及其应用[D];河北科技大学;2010年
7 蒋伟华;搜索引擎中的信息抽取技术研究[D];湖南大学;2001年
8 张绍华;基于实例的Web信息抽取[D];河北大学;2001年
9 朱道辉;基于条件随机域的Web信息抽取研究[D];南华大学;2010年
10 全福亮;面向精确Web信息抽取的自动数据记录分析和识别技术研究[D];南京大学;2011年
,本文编号:1368623
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1368623.html