当前位置:主页 > 文艺论文 > 广告艺术论文 >

基于单DOM树特征预分类的自适应Web信息抽取方法

发布时间:2019-03-28 06:55
【摘要】:在传统的舆情中多为基于模板采集模式,基于减少人工维护的目的,文中提出一种基于单DOM树特征预分类的自适应Web信息抽取方法,分为链接预分类与信息抽取两个部分。链接预分类采用SVM分类算法,提取信息超链接在页面中的特征进行分类学习,再对分类结果进行同源的Web信息提取。实验表明,此方法预分类结果准确率可达94.48%,召回率为94.77%。
[Abstract]:In traditional public opinion, most of them are based on template collection mode, and for the purpose of reducing manual maintenance, this paper proposes an adaptive DOM information extraction method based on single Web tree feature pre-classification, which is divided into two parts: link pre-classification and information extraction. The link pre-classification uses SVM classification algorithm to extract the features of hyperlinks in the page for classification learning and then extract the Web information of the same origin from the classification results. The experimental results show that the accuracy and recall rate of this method are 94.48% and 94.77% respectively.
【作者单位】: 武汉邮电科学研究院;南京烽火星空通信发展有限公司;
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 史庆伟;赵政;鲍虎;;基于条件随机域的Web信息抽取[J];辽宁工程技术大学学报;2007年04期

2 邓箴;包宏;;改进的关键词抽取方法研究[J];计算机工程与设计;2009年20期

3 石桢;姚天f ;;一种基于统计和规则的核心地名抽取方法[J];微型电脑应用;2013年02期

4 张世辉;一种新的基于距离的汉字笔画抽取方法[J];计算机工程;2003年14期

5 王大亮;涂序彦;郑雪峰;佟子健;;多策略融合的搭配抽取方法[J];清华大学学报(自然科学版);2008年04期

6 杨建明;;关系抽取方法研究[J];电子技术;2009年04期

7 孙继鹏;贾民;刘增宝;;一种面向文本的概念抽取方法的研究[J];计算机应用与软件;2009年09期

8 郑伟;吕建新;张建伟;;文本分类中特征预抽取方法研究[J];情报科学;2011年01期

9 郝博一;夏云庆;邬晓钧;郑方;刘轶;;基于泛化和繁殖的自举式意见目标抽取方法[J];清华大学学报(自然科学版);2009年S1期

10 栗春亮;朱艳辉;徐叶强;;中文产品评论中属性词抽取方法研究[J];计算机工程;2011年12期

相关会议论文 前10条

1 宋涛;李素建;;基于流形排序的领域词抽取方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年

2 卞真旭;;一种关键词抽取方法研究[A];2011年安徽省智能电网技术论坛论文集[C];2011年

3 罗斐;毛宇光;;基于领域分类的查询接口模式抽取方法[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年

4 栗春亮;朱艳辉;徐叶强;;中文产品评论中属性词抽取方法研究[A];第六届全国信息检索学术会议论文集[C];2010年

5 刘昊;王健;林鸿飞;;一种模板与图核融合的蛋白质关系抽取方法[A];第六届全国信息检索学术会议论文集[C];2010年

6 翁伟;王厚峰;;基于LDA的关键词抽取方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年

7 何莉;林鸿飞;;一种面向WEB的生物医学领域英汉术语翻译对抽取方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

8 左云存;宗成庆;;基于HMM的短语翻译对抽取方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

9 王裴岩;张桂平;白宇;;一种基于核函数的技术关键词连接关系抽取方法[A];第六届全国信息检索学术会议论文集[C];2010年

10 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年

相关博士学位论文 前3条

1 刘胜宇;生物医学文本中药物信息抽取方法研究[D];哈尔滨工业大学;2016年

2 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年

3 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年

相关硕士学位论文 前10条

1 李宗超;基于本体的手机领域Web信息抽取[D];重庆大学;2015年

2 王海涛;面向Web信息抽取的网页自动浏览导航与集成规则研究[D];南京大学;2014年

3 曹攀;大规模Web信息抽取与文本分类研究[D];南京邮电大学;2016年

4 刘玉龙;Web信息抽取规则的设计和实现[D];南京大学;2013年

5 廉成洋;基于树结构的Web信息抽取技术研究[D];南京航空航天大学;2010年

6 陈倩;基于特征模型的跨领域信息抽取方法研究[D];上海大学;2015年

7 刘骁;基于产品评论的意见抽取方法研究[D];黑龙江大学;2015年

8 洪军建;面向社会网络应用的人物关系抽取方法研究[D];西藏大学;2016年

9 梅莉莉;基于领域特殊性和统计语言知识的新词抽取方法[D];北京理工大学;2016年

10 陈亚东;面向数据稀疏问题的英文事件抽取研究[D];苏州大学;2016年



本文编号:2448640

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/2448640.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户40209***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com