一种垂直页面分割与信息提取方法的研究
本文选题:页面分割 切入点:信息获取 出处:《计算机应用研究》2013年03期
【摘要】:在综合分析不同页面分割算法和适用条件的基础上,研究针对垂直型网站的页面分割和信息提取算法。以DOM(document object model)树为基础,提出页面内容聚集度的概念,统计获取页面分割标签和样式层叠表映射,对页面进行分割;采用正文识别和前缀匹配的方法,完成从页面分块信息提取。结合实际的网络视频项目需求,实现面向垂直型网站页面的分割和信息提取器。实验结果表明,该网页分割和信息提取方法对垂直页面信息提取具有良好的性能,满足实际项目需求。
[Abstract]:On the basis of comprehensive analysis of different page segmentation algorithms and applicable conditions, this paper studies the algorithms of page segmentation and information extraction for vertical websites.Based on the DOM(document object model tree, the concept of page content aggregation is proposed, the page segmentation label and style layer table mapping are obtained statistically, and the page is segmented by the method of text recognition and prefix matching.According to the actual requirements of network video project, the vertical web page segmentation and information extractor are realized.The experimental results show that the method of web page segmentation and information extraction has good performance for vertical page information extraction and meets the needs of actual items.
【作者单位】: 中国科学院研究生院;中国科学院声学研究所国家网络新媒体工程技术研究中心;
【基金】:国家“863”计划资助项目(2011AA01A102) 国家科技支撑计划重点资助项目(2011BAH08B01) 中国科学院战略性先导科技专项子课题(XDA06010302)
【分类号】:TP393.092
【参考文献】
相关期刊论文 前7条
1 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
2 汪建伟;杨冬青;高军;王腾蛟;;一种基于分类算法的网页信息提取方法[J];计算机科学;2008年03期
3 于满泉,陈铁睿,许洪波;基于分块的网页信息解析器的研究与设计[J];计算机应用;2005年04期
4 郑长松;傅彦;佘莉;;基于模板的Web信息自动提取方法[J];计算机应用研究;2009年02期
5 孙承杰,关毅;基于统计的网页正文信息抽取方法的研究[J];中文信息学报;2004年05期
6 陈治纲,何丕廉,孙越恒,郑小慎;基于向量空间模型的文本分类系统的研究与实现[J];中文信息学报;2005年01期
7 孙晓辉;刘建;王劲林;陈晓;;基于CSS的网页分割算法[J];微计算机应用;2008年09期
相关博士学位论文 前1条
1 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年
相关硕士学位论文 前1条
1 刘江;面向信息抽取的Web页面结构挖掘技术研究[D];哈尔滨工业大学;2010年
【共引文献】
相关期刊论文 前10条
1 胡凌云;胡桂兰;徐勇;李龙澍;;基于Web的新闻文本分类技术的研究[J];安徽大学学报(自然科学版);2010年06期
2 高博;朱东华;韩士雄;;一种智能化的信息采集系统的研究与实现[J];兵工学报;2009年S1期
3 张惠君;李娟;;基于OPAC的馆藏评价方法探究[J];图书与情报;2010年04期
4 李艳玲;戴冠中;覃森;;快速的文本倾向性分类方法(英文)[J];电子科技大学学报;2007年06期
5 王楠;;一种实现Web数据到XML文档的转换算法[J];大连海事大学学报;2010年03期
6 宋明秋;张瑞雪;吴新涛;李文立;;网页正文信息抽取新方法[J];大连理工大学学报;2009年04期
7 杜云艳;王丽敬;季民;曹峰;;土地利用变化预测的案例推理方法[J];地理学报;2009年12期
8 王立建;尹四清;;基于Web页面有效信息抽取的分类方法[J];电脑开发与应用;2010年06期
9 赵文;唐建雄;高庆锋;;基于统计的中文网页正文抽取的研究[J];电脑知识与技术;2008年01期
10 陈蕾蕾;张如静;;面向Web的新闻网页正文信息抽取策略研究[J];电脑知识与技术;2008年S2期
相关会议论文 前9条
1 胡飞;;一种Web页面的主题区域搜索方法[A];2008年计算机应用技术交流会论文集[C];2008年
2 王春元;张韬;;一种获取网页主要中文信息的方法[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
3 ;Chinese Text Emotion Classification Based On Emotion Dictionary[A];Proceedings 2010 IEEE 2nd Symposium on Web Society[C];2010年
4 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
5 孙丽华;肖诗斌;施水才;;基于向量空间模型的规则分类技术[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 时达明;林鸿飞;杨志豪;;基于网页框架和规则的网页噪音去除方法[A];第三届学生计算语言学研讨会论文集[C];2006年
7 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
8 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
相关博士学位论文 前8条
1 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
2 高琰;基于多特征的Web社区发现关键技术研究[D];中南大学;2007年
3 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
4 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
5 车海燕;面向中文自然语言Web文档的自动知识抽取和知识融合[D];吉林大学;2008年
6 王春元;公共网络信息系统安全管理的研究[D];合肥工业大学;2009年
7 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
8 王欣;WEB应用系统安全检测关键技术研究[D];北京邮电大学;2011年
相关硕士学位论文 前10条
1 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
2 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
3 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
4 杨芹;基于最大熵模型的中文网页分类器设计和实现[D];苏州大学;2010年
5 孟桂国;基于维基百科的双语语料挖掘技术研究[D];苏州大学;2010年
6 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
7 付涛;藏文网页除噪技术研究[D];西北民族大学;2010年
8 孟祥燕;问答对自动获取的研究[D];昆明理工大学;2008年
9 邓忠莹;中文文本倾向性分类系统研究[D];昆明理工大学;2009年
10 吕楠;话题追踪与演化分析技术研究[D];解放军信息工程大学;2009年
【二级参考文献】
相关期刊论文 前10条
1 徐从富,耿卫东,潘云鹤;面向数据融合的DS方法综述[J];电子学报;2001年03期
2 张绍华,徐林昊,杨文柱,薛文玲,李天柱;基于样本实例的Web信息抽取[J];河北大学学报(自然科学版);2001年04期
3 张茂元;张金隆;卢正鼎;邹春燕;;基于特征相关学习的网页信息提取方法[J];华中科技大学学报(自然科学版);2007年07期
4 殷贤亮;李猛;;基于分块的网页主题信息自动提取算法[J];华中科技大学学报(自然科学版);2007年10期
5 李晓黎,刘继敏,史忠植;概念推理网及其在文本分类中的应用[J];计算机研究与发展;2000年09期
6 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
7 王辉;左万利;王晖昱;宁爱军;孙志伟;满春雷;;基于质心向量的增量式主题爬行[J];计算机研究与发展;2009年02期
8 彭涛;孟宇;左万利;王英;胡亮;;主题爬行中的隧道穿越技术[J];计算机研究与发展;2010年04期
9 李蕾;王劲林;白鹤;胡晶晶;;基于FFT的网页正文提取算法研究与实现[J];计算机工程与应用;2007年30期
10 高军 ,王腾蛟 ,杨冬青 ,唐世渭;基于Ontology的Web内容二阶段半自动提取方法[J];计算机学报;2004年03期
相关会议论文 前1条
1 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
【相似文献】
相关期刊论文 前10条
1 金更达;;基于信息获取的用户Agent[J];图书馆杂志;2002年03期
2 周晓滨;基于神经网络的Web信息检索研究与实现[J];情报杂志;2004年11期
3 苏海涛,杨世元,董华,沈毛虎;基于因果追溯的制造业质量信息获取方法研究[J];制造业自动化;2005年09期
4 李玲鞠;论网络教育信息资源的获取[J];情报探索;2005年06期
5 李玲鞠;;如何获取网络教育信息资源[J];科技文献信息管理;2005年02期
6 吕建辉;;论大学生信息获取技能训练学习环境的创设[J];现代情报;2006年04期
7 叶素萍;;高校用户群体信息获取的障碍及图书馆服务对策[J];医学信息;2006年06期
8 王晓黎;王文杰;;基于向量空间模型的文本检索系统[J];微电子学与计算机;2006年06期
9 刘务华;罗铁坚;王文杰;;一个Web社区搜索引擎系统[J];计算机应用研究;2007年02期
10 李淑梅;何卫平;赵锋;;基于语义扩展的产品创新设计信息获取研究[J];计算机应用研究;2007年04期
相关会议论文 前10条
1 寿国础;;公网接入技术在信息获取中应用分析[A];第二届全国信息获取与处理学术会议论文集[C];2004年
2 张健;;空间信息获取与传输中的无线电技术发展分析[A];第二届全国信息与电子工程学术交流会暨第十三届四川省电子学会曙光分会学术年会论文集[C];2006年
3 陈文平;毛宽荣;赵严杰;;在互联网络中获取便秘相关信息[A];中华中医药学会肛肠分会换届会议暨便秘专题研讨会论文专刊[C];2007年
4 刘卉;张漫;;无线传感器网络技术在农业中应用[A];2007年中国农业工程学会学术年会论文摘要集[C];2007年
5 郭华东;;新型对地观测技术及其应用[A];新世纪 新机遇 新挑战——知识创新和高新技术产业发展(上册)[C];2001年
6 王仲生;;转子早期裂纹信息获取与自愈方法研究[A];第六届全国信息获取与处理学术会议论文集(1)[C];2008年
7 苏贵洋;王永成;马颖华;;信息自动获取的结构模型[A];第一届学生计算语言学研讨会论文集[C];2002年
8 徐秀芳;刘银年;王建宇;;多谱段相机的信息获取与处理技术[A];第二届全国信息获取与处理学术会议论文集[C];2004年
9 乔晓军;李长樱;王成;;基于图像处理技术的温室作物信息采集处理系统[A];2004年中国设施园艺学会学术年会文集[C];2004年
10 郭达志;;天地一体化数字影像地理空间信息的获取与更新[A];煤炭资源高效绿色开采与数字矿山学术讨论会论文集[C];2005年
相关重要报纸文章 前10条
1 钟文;信息获取新模式推动互联网搜索引擎“变脸”[N];国际商报;2003年
2 潘学俊;聚焦信息战前沿:“信息获取”[N];解放军报;2003年
3 彭勃;信息获取决胜未来[N];解放军报;2002年
4 本报记者 王翌;“搜索”改变信息获取方式[N];计算机世界;2004年
5 马炜;格式差异不能限制信息获取[N];中国计算机报;2004年
6 郭红雨;如何从垂直网站获取有效资讯[N];国际商报;2001年
7 李兆平;北京:小面积基础地理信息获取有新法[N];中国测绘报;2008年
8 薛蓉;龙媒分拆出口行业垂直网站群[N];国际商报;2000年
9 驻京记者 张艳;“常青藤”搜索引擎向垂直网站转轨[N];文汇报;2000年
10 黄岳;Web2.0下一步怎么走?[N];电脑报;2006年
相关博士学位论文 前10条
1 金鑫;数字化背景下的消费者信息获取:对社会信息资源的选择和反思[D];复旦大学;2012年
2 张方华;知识型企业的社会资本与技术创新绩效研究[D];浙江大学;2005年
3 胡良梅;基于信息融合的图像理解方法研究[D];合肥工业大学;2006年
4 朱婕;网络环境下个体信息获取行为研究[D];吉林大学;2007年
5 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年
6 陆再林;基于图形理解的建筑工程量信息获取原理、方法及其应用研究[D];浙江大学;2002年
7 吴德会;基于质量信息集成的智能质量控制技术研究[D];合肥工业大学;2006年
8 马静华;基于运动信息获取及智能处理的运动员训练指导系统研究[D];中国科学技术大学;2006年
9 宋记锋;信息获取与应用的若干关键技术研究[D];中国科学技术大学;2008年
10 岳小莉;基于多粒度的产品信息获取技术研究[D];浙江大学;2002年
相关硕士学位论文 前10条
1 张治平;Web信息精确获取技术研究[D];国防科学技术大学;2004年
2 崔建晔;VTS的信息获取与播发技术的研究[D];大连海事大学;2009年
3 董富强;网络用户行为分析研究及其应用[D];西安电子科技大学;2005年
4 熊莺;垂直网站的设计与实现[D];大连理工大学;2002年
5 秦树伟;面向移动页面自适应平台的Web结构特征聚类算法[D];中国海洋大学;2011年
6 朱艳艳;考研大学生移动信息获取服务的交互设计研究[D];浙江工业大学;2012年
7 杨培颖;Web页面语义信息提取方法的研究[D];东北大学;2008年
8 史慧珍;数字城市规划的技术方法研究[D];清华大学;2004年
9 李文忠;实时搜索引擎中时间信息的获取及简单应用[D];吉林大学;2012年
10 陈策;基于WEB技术的竞争情报系统的开发与研究[D];华北电力大学(河北);2004年
,本文编号:1705066
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1705066.html