一种基于分隔条的网页分块算法
本文关键词:一种基于分隔条的网页分块算法
【摘要】:网络信息时代的到来使得网络中的信息量呈指数增长,由此研究如何从网页中高效地提取出有用信息成为网络信息检索领域中的重要课题。从网页的可视性和统一性两大基本特征出发,提出一种通过检测分隔条对网页进行分块的算法,并使用相对位置排版的概念解决在部分分块的高度未知的情况下如何表示各分块的相对位置的问题。分块过程中,通过已分块数、节点的信息长度、宽高等信息综合确定分块的终止条件,保证了算法的执行效率和有效性。实验结果说明,该算法具有较高的执行效率。
【作者单位】: 辽宁科技大学软件学院;
【关键词】: Web分块 视觉特征 分隔条 网页分块
【分类号】:TP393.092;TP391.3
【正文快照】: 0引言世界的信息化已经到来,网络作为信息化的载体势必会充斥着大量的信息,这些信息大多数是我们不关心的,因此对如何高效地从海量的网络信息中提出有用的信息的研究是很有必要的。众所周知,大多数网络信息是通过网页的形式展现的,网络信息抽取转换成了对这些网页的分析与信息
【参考文献】
中国期刊全文数据库 前4条
1 于满泉,陈铁睿,许洪波;基于分块的网页信息解析器的研究与设计[J];计算机应用;2005年04期
2 黄文蓓;杨静;顾君忠;;基于分块的网页正文信息提取算法研究[J];计算机应用;2007年S1期
3 王磊;蒋建中;郭军利;;基于扩展DOM树的Web页面信息抽取[J];计算机应用与软件;2007年06期
4 孙晓辉;刘建;王劲林;陈晓;;基于CSS的网页分割算法[J];微计算机应用;2008年09期
【共引文献】
中国期刊全文数据库 前10条
1 宋健豪;赵刚;;基于启发式规则优化的网页元素提取方法[J];信息安全与技术;2012年06期
2 张敏;;基于确定性树自动机技术的信息抽取研究[J];才智;2011年36期
3 王楠;;一种实现Web数据到XML文档的转换算法[J];大连海事大学学报;2010年03期
4 郑志材;张晶;;基于JAVA的网络蜘蛛的设计与实现[J];硅谷;2009年14期
5 柳永念;钟诚;焦小焦;;基于单元识别的网页信息抽取方法[J];广西大学学报(自然科学版);2011年05期
6 任玉;樊勇;郑家恒;;基于分块的网页主题文本抽取[J];广西师范大学学报(自然科学版);2009年01期
7 张春元;;基于CRFs的新闻网页主题内容自动抽取方法[J];广西师范大学学报(自然科学版);2011年01期
8 县小平;;垂直搜索引擎探索[J];甘肃高师学报;2013年02期
9 吴斌杰;徐子玮;虞飞华;;基于API的微博信息采集系统设计与实现[J];电脑知识与技术;2013年17期
10 向程冠;熊世桓;;一种基于特征树的Web碎片信息抽取算法[J];兰州理工大学学报;2014年01期
中国重要会议论文全文数据库 前2条
1 梁勇;张文;;网络舆情采集系统的设计[A];2011年全国通信安全学术会议论文集[C];2011年
2 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
中国博士学位论文全文数据库 前2条
1 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
2 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
中国硕士学位论文全文数据库 前10条
1 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
2 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
3 汪前秀;基于改进的VSM的不良文本过滤模型研究[D];东北财经大学;2010年
4 陶小波;电子就业文本挖掘系统关键技术研究与应用[D];浙江工商大学;2011年
5 王伟;搜索引擎智能化技术中若干关键问题的研究与实现[D];河北科技大学;2011年
6 马俊;基于购物搜索引擎的网页解析模块的设计与实现[D];北京邮电大学;2010年
7 侯明燕;基于网页信息定位的数据抽取技术的研究[D];暨南大学;2011年
8 王伟;基于网络信息的热点事件发现与分析研究[D];华东师范大学;2011年
9 任昌;基于多特征融合的网页对象自动定位技术研究[D];中北大学;2011年
10 易聪;基于Web挖掘的企业竞争情报系统构建研究[D];华南理工大学;2011年
【二级参考文献】
中国期刊全文数据库 前8条
1 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
2 张树瑜,朱仲英;基于MT决策树的Web信息抽取研究[J];计算机工程与应用;2004年13期
3 李蕾;王劲林;白鹤;胡晶晶;;基于FFT的网页正文提取算法研究与实现[J];计算机工程与应用;2007年30期
4 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期
5 于满泉,陈铁睿,许洪波;基于分块的网页信息解析器的研究与设计[J];计算机应用;2005年04期
6 孙承杰,关毅;基于统计的网页正文信息抽取方法的研究[J];中文信息学报;2004年05期
7 罗永莲;秦振吉;;新闻网页主题内容提取方法研究[J];微计算机应用;2007年05期
8 吴鹏飞;孟祥增;刘俊晓;马凤娟;;网页区域分割与识别技术[J];现代计算机;2006年06期
【相似文献】
中国期刊全文数据库 前10条
1 窦朝晖,胡庆丰;Copy:提高分块算法性能的有效方法[J];计算机工程与科学;1999年06期
2 吴翔;谭李;陆文凯;张学工;;提高超大规模SVM训练计算速度的研究[J];模式识别与人工智能;2003年01期
3 王康,王小铭;一种基于颜色分块特征的自适应图象检索方法[J];计算机工程与应用;2005年32期
4 杨丽娟;刘教民;王震洲;赵艳;;基于分块帧差的视频图像运动检测[J];河北科技大学学报;2006年01期
5 韦立庆;陈秀宏;;分块类增广PCA及其在人脸识别中的应用[J];计算机工程;2011年03期
6 窦朝晖,胡庆丰,张秀山;主维对矩阵运算性能的影响[J];国防科技大学学报;1999年03期
7 陈兴波;王晓明;;一种快速RSA算法的改进[J];计算机工程与设计;2006年22期
8 郑秋梅;蒋晓红;杨发科;高元涛;;基于分块技术的图像检索方法的改进与实现[J];计算机系统应用;2008年02期
9 陈艳华;伊波;崔艳玲;李红宇;;集合划分的深层结构的计算机辅助研究[J];电脑开发与应用;2008年07期
10 彭晶;林克正;;基于MPEG-7颜色特征的图像检索技术研究[J];计算机与信息技术;2008年10期
中国重要会议论文全文数据库 前10条
1 王猛;侯德文;李玉山;;基于自适应分块和HVS的数字水印方案[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(一)[C];2005年
2 李嘉伟;孙明;;基于分块LAB特征的粒子滤波目标跟踪算法[A];中国农业工程学会2011年学术年会论文集[C];2011年
3 陈思坤;吴洪;;基于图分块并利用空间金字塔的医学图像分类[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
4 杜以华;高金花;文振q;;融合结构信息与时域定序法的视频拷贝检测算法[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【oral】[C];2011年
5 许洋;冯新桓;贾启龙;唐宁九;;基于多路数据传输的一种新型加密技术[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
6 汪丽华;汪道寅;王泽梁;;SIFT算法图像自适应优化[A];浙江省电子学会2011学术年会论文集[C];2011年
7 吴成玉;邰晓英;赵杰煜;;颜色、纹理及相关反馈技术在图像检索中的综合应用[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
8 姜太平;占涛;王帅;梅英;;基于体绘制的真三维显示中体素路径优化算法分析[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
9 朱士蓉;谢昭;高隽;;一种图模型下的柔性图像分割方法[A];中国仪器仪表学会第十二届青年学术会议论文集[C];2010年
10 文振q;高金花;刘朋飞;杜以华;张萌;;基于分块DCT和PCA的图像感知哈希算法研究[A];第十五届全国图象图形学学术会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 蒋杰;全球大规模虚拟地理环境构建关键技术研究[D];国防科学技术大学;2010年
2 常为领;面向灾备的无损数据压缩关键技术研究[D];哈尔滨工业大学;2010年
3 魏建生;高性能重复数据检测与删除技术研究[D];华中科技大学;2012年
4 杨淑平;人脸特征提取与识别算法研究[D];中南大学;2013年
5 檀敬东;文本挖掘的若干关键算法研究[D];中国科学技术大学;2010年
6 刘晨光;基于单目视频无标记点的三维人体姿态估计的研究[D];哈尔滨工业大学;2011年
7 郭岩松;压缩感知关键技术研究[D];天津大学;2011年
8 吕沛;基于压缩感知理论的水下成像技术和图像压缩编码技术研究[D];中国科学院研究生院(西安光学精密机械研究所);2012年
9 王威;基于网格快速重构的三维地质体建模研究与应用[D];中国科学院研究生院(武汉岩土力学研究所);2010年
10 王灿;基于在线重复数据消除的海量数据处理关键技术研究[D];电子科技大学;2012年
中国硕士学位论文全文数据库 前10条
1 闵慧;面向语义服务的大规模本体分块映射研究[D];中南大学;2013年
2 赖雅;基于图分割的大规模本体分块与映射研究[D];中南大学;2011年
3 齐朗晔;基于分块核函数特征的交通标识识别[D];南京理工大学;2013年
4 郭维;基于二部图模型的大本体分块与映射研究[D];中南大学;2012年
5 王润梅;基于Laplace矩阵的大规模本体分块映射的研究[D];中南大学;2011年
6 孙运莲;基于分块和核参数选择的KPCA研究[D];哈尔滨工业大学;2010年
7 盛名;基于自适应分块的密写算法研究[D];东北师范大学;2010年
8 张建华;基于片段的大本体分块与映射方法研究[D];中南大学;2010年
9 李沃若;基于感知分块的灰度化算法研究[D];浙江大学;2008年
10 侯波;真实感三维地形造型及可视化[D];电子科技大学;2005年
,本文编号:577446
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/577446.html