基于多特征融合的网页正文信息抽取
[Abstract]:Nowadays, the mainstream web pages are divided into single positive style pages and multi-positive stylistic pages. The text information of these pages has multiple text features. In order to locate the location of text information accurately, we can start with its features and the design habits of web designers. In view of this, this paper proposes a method of text information extraction based on multi-feature fusion. The experimental results show that this method has high accuracy and generality for the text extraction of single and multi-style web pages, and adapts well to various web pages of different styles.
【作者单位】: 西南交通大学信息科学与技术学院 思维与智慧研究所;
【基金】:国家自然科学基金项目(61152001,61170111) 中国科学院自动化研究所复杂系统管理与控制重点实验室开放课题(20110102)
【分类号】:TP393.092
【参考文献】
相关期刊论文 前6条
1 冀高峰;汤庸;道炜;吴桂宾;黄帆;王鹏;;基于XML的自动学习Web信息抽取[J];计算机科学;2008年03期
2 刘辉;陈静玉;徐学洲;;基于模板流程配置的Web信息抽取[J];计算机工程;2008年20期
3 郑长松;傅彦;佘莉;;基于模板的Web信息自动提取方法[J];计算机应用研究;2009年02期
4 孙承杰,关毅;基于统计的网页正文信息抽取方法的研究[J];中文信息学报;2004年05期
5 周佳颖;朱珍民;高晓芳;;基于统计与正文特征的中文网页正文抽取研究[J];中文信息学报;2009年05期
6 刘亚东;彭舰;张达平;;基于智能的网页信息提取系统的研究与设计[J];四川大学学报(自然科学版);2009年04期
【共引文献】
相关期刊论文 前10条
1 高博;朱东华;韩士雄;;一种智能化的信息采集系统的研究与实现[J];兵工学报;2009年S1期
2 王楠;;一种实现Web数据到XML文档的转换算法[J];大连海事大学学报;2010年03期
3 宋明秋;张瑞雪;吴新涛;李文立;;网页正文信息抽取新方法[J];大连理工大学学报;2009年04期
4 赵文;唐建雄;高庆锋;;基于统计的中文网页正文抽取的研究[J];电脑知识与技术;2008年01期
5 王强;战忠丽;张凤君;;基于语义分组向量空间模型的Web新闻检索算法[J];电子科技;2011年04期
6 胡瑜;王立志;;基于HTML结构特征的网页信息提取[J];辽宁石油化工大学学报;2009年03期
7 任玉;樊勇;郑家恒;;基于分块的网页主题文本抽取[J];广西师范大学学报(自然科学版);2009年01期
8 刘丰;韩辉;周蕾;齐峻瑶;徐宝梁;;网络信息技术在传染病舆情监测中的应用[J];中国国境卫生检疫杂志;2012年04期
9 李文;郑邦习;邓武;;基于XML和DOM技术的Web信息抽取模型[J];大连交通大学学报;2013年03期
10 向程冠;熊世桓;;基于CSS视觉分块的Web碎片信息抽取算法[J];计算机光盘软件与应用;2013年16期
相关会议论文 前4条
1 胡飞;;一种Web页面的主题区域搜索方法[A];2008年计算机应用技术交流会论文集[C];2008年
2 王春元;张韬;;一种获取网页主要中文信息的方法[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
3 时达明;林鸿飞;杨志豪;;基于网页框架和规则的网页噪音去除方法[A];第三届学生计算语言学研讨会论文集[C];2006年
4 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
相关博士学位论文 前5条
1 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
2 王春元;公共网络信息系统安全管理的研究[D];合肥工业大学;2009年
3 王桂红;农产品市场价格web信息分析方法研究[D];沈阳农业大学;2013年
4 宋鑫莹;网络信息自动化高效抽取技术研究[D];哈尔滨工业大学;2013年
5 吴共庆;基于标签路径特征的Web新闻内容抽取研究[D];合肥工业大学;2012年
相关硕士学位论文 前10条
1 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
2 孟桂国;基于维基百科的双语语料挖掘技术研究[D];苏州大学;2010年
3 孟祥燕;问答对自动获取的研究[D];昆明理工大学;2008年
4 吕楠;话题追踪与演化分析技术研究[D];解放军信息工程大学;2009年
5 许世明;中文网页分类技术研究及预分类算法实现[D];西安电子科技大学;2009年
6 陈晶;基于网页的信息抽取的研究[D];西安工业大学;2011年
7 王伟;搜索引擎智能化技术中若干关键问题的研究与实现[D];河北科技大学;2011年
8 李亚洲;文本分类语料库自动构建系统的研究与改进[D];武汉理工大学;2011年
9 高永胜;基于树形结构的网页数据抽取模式研究及应用[D];大连理工大学;2011年
10 张瑞雪;基于DOM树的网页相似度研究与应用[D];大连理工大学;2011年
【二级参考文献】
相关期刊论文 前10条
1 张绍华,徐林昊,杨文柱,薛文玲,李天柱;基于样本实例的Web信息抽取[J];河北大学学报(自然科学版);2001年04期
2 张茂元;张金隆;卢正鼎;邹春燕;;基于特征相关学习的网页信息提取方法[J];华中科技大学学报(自然科学版);2007年07期
3 殷贤亮;李猛;;基于分块的网页主题信息自动提取算法[J];华中科技大学学报(自然科学版);2007年10期
4 高军 ,王腾蛟 ,杨冬青 ,唐世渭;基于Ontology的Web内容二阶段半自动提取方法[J];计算机学报;2004年03期
5 于满泉,陈铁睿,许洪波;基于分块的网页信息解析器的研究与设计[J];计算机应用;2005年04期
6 宋睿华,马少平,陈刚,李景阳;一种提高中文搜索引擎检索质量的HTML解析方法[J];中文信息学报;2003年04期
7 孙承杰,关毅;基于统计的网页正文信息抽取方法的研究[J];中文信息学报;2004年05期
8 梅雪;程学旗;郭岩;张刚;丁国栋;;一种全自动生成网页信息抽取Wrapper的方法[J];中文信息学报;2008年01期
9 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期
10 杨少华;林海略;韩燕波;;针对模板生成网页的一种数据自动抽取方法(英文)[J];软件学报;2008年02期
相关会议论文 前1条
1 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
【相似文献】
相关期刊论文 前10条
1 吴鹏飞;马凤娟;;基于Boost.Regex的网页信息抽取[J];电脑编程技巧与维护;2009年15期
2 徐明;;轻松破解网页右键屏蔽六招[J];电脑校园;2002年12期
3 杜翠茹;;浅析网页布局方法在教学中的优化[J];大众科技;2010年05期
4 孟涛,闫宏飞,王继民;Web网页信息变化的时间局部性规律及其验证[J];情报学报;2005年04期
5 ;和朋友看同一个网页的幸福生活[J];计算机与网络;2005年18期
6 张晓彦;张晓明;;一种基于表格属性的网页信息隐藏算法[J];北京石油化工学院学报;2009年01期
7 郭利伟;王家兵;;Web信息自动标引方法比较[J];内蒙古科技与经济;2009年07期
8 胡少荣;孟嗣仪;刘云;张彦超;丁飞;;网页信息自动抽取技术的研究[J];铁路计算机应用;2010年09期
9 张莉,曾致远;Windows下网页信息实时监听程序的设计与实现[J];微计算机信息;2005年03期
10 于满泉,陈铁睿,许洪波;基于分块的网页信息解析器的研究与设计[J];计算机应用;2005年04期
相关会议论文 前10条
1 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 王晓峰;刘惟一;;从用户需求到网页集团的模糊变换[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
3 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
4 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
5 张贯虹;乌达巴拉;巩政;;基于向量空间模型的网页文本句子对齐方法研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
6 赵玉芳;张一鸣;;基于网页信息的印象形成的初步研究[A];第十届全国心理学学术大会论文摘要集[C];2005年
7 张阳;李战怀;近藤广幸;;WEB PAGE的自动分类[A];第十六届全国数据库学术会议论文集[C];1999年
8 甘卫东;郭宏骞;曾令奇;;泌尿外科病人使用因特网情况及相关专业网页质量调查[A];第十五届全国泌尿外科学术会议论文集[C];2008年
9 何平;李锦;;基于Web挖掘技术的用户模糊偏好分析[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
10 黄华军;王保卫;孙星明;;基于CSS类选择符重复引入的网页信息隐藏算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
相关重要报纸文章 前10条
1 壮壮;批量保存网页信息[N];电脑报;2004年
2 东方早报记者 李伟;要名还是要利,这是个问题[N];东方早报;2011年
3 金山软件副总裁 杨桓;着力“三大系统” 构筑网络安全屏障[N];中国电子报;2009年
4 郭京霞;枫叶之都状告百度恶意排名一审败诉[N];中国知识产权报;2007年
5 路人甲;请个专家来贴图[N];电脑报;2005年
6 夏凌;搜索引擎排名纠纷百度胜出[N];中华工商时报;2007年
7 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
8 郭京霞;百度胜诉搜索引擎排名纠纷案[N];中国企业报;2007年
9 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
10 章森 王伟;搜索引擎的工作机制[N];计算机世界;2006年
相关博士学位论文 前10条
1 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年
2 焦斌星;用于搜索的网页可视化摘要技术研究[D];中国科学技术大学;2012年
3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
4 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
5 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年
6 王昤璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
7 刘守群;海量网络视频快速检索关键技术研究[D];中国科学技术大学;2010年
8 段瑞雪;基于依存关系的用户意图的研究[D];北京邮电大学;2011年
9 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年
10 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
相关硕士学位论文 前10条
1 于洪波;中文网页自动采集与分类系统设计与实现[D];北京邮电大学;2010年
2 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
3 张航;主题爬虫的实现及其关键技术研究[D];武汉理工大学;2010年
4 冯明远;深度网络信息爬取关键技术研究与实现[D];浙江大学;2010年
5 邓科;智能搜索中的中文网页分类研究[D];兰州理工大学;2011年
6 党春辉;网页消重和聚类算法在高校搜索引擎中的研究与应用[D];东华大学;2010年
7 马伟瑜;基于改进的PageRank的网页信息可信度评估方法研究[D];河北大学;2011年
8 任斌;基于本体的主动学习主题爬行的研究与实现[D];吉林大学;2010年
9 任兰鹏;基于代表样本的中文网页分类研究[D];山东大学;2010年
10 李霞;文本过滤防火墙技术研究[D];北方工业大学;2011年
,本文编号:2398399
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2398399.html