一种基于网页块特征的多级网页聚类方法
本文关键词:一种基于网页块特征的多级网页聚类方法
【摘要】:利用网页的结构特征,提出一种多级网页聚类方法。该方法首先对网页进行分块,然后使用网页的块特征对网页进行聚类。在聚类过程中,通过调整阈值,能够提供三级聚类:同站点网页聚类、同站点同结构网页聚类、同站点同结构同模板网页聚类。与已有的网页聚类方法相比较,该方法能够提供多级聚类结果,满足不同的聚类需求,而且在聚类的准确率和效率方面有本质上的提高。
【作者单位】: 中国科学院计算技术研究所;中国科学院大学;
【关键词】: 网页分块 网页聚类 DOM
【基金】:国家重点基础研究发展计划(“973”计划)项目(2012CB316303) 国家高技术研究发展计划(“863”计划)项目(2012AA011003) 国家科技支撑计划项目(2012BAH39B02) 国家自然科学基金资助项目(61232010,61202058)
【分类号】:TP393.092
【正文快照】: 0引言网页信息抽取是信息检索、网络信息推荐等重大网络应用中的关键技术之一。针对海量网页的信息抽取,如果能够使用面向结构的网页聚类方法,将结构相似的网页聚成一类,然后对网页的抽取规则进行归纳,则可以在保证抽取准确率的同时实现大规模网页的自动抽取。对网页进行多级
【参考文献】
中国期刊全文数据库 前2条
1 常育红,姜哲,朱小燕;基于标记树表示方法的页面结构分析[J];计算机工程与应用;2004年16期
2 李睿;曾俊t@;周四望;;基于局部标签树匹配的改进网页聚类算法[J];计算机应用;2010年03期
【共引文献】
中国期刊全文数据库 前10条
1 曹恒;张茜;;农作物信息垂直搜索引擎的研究[J];安徽农业科学;2012年19期
2 宋明秋;张瑞雪;吴新涛;李文立;;网页正文信息抽取新方法[J];大连理工大学学报;2009年04期
3 吴谋硕;;基于数据分布特征的网页聚类算法[J];电脑知识与技术;2013年30期
4 李蕾;王劲林;白鹤;胡晶晶;;基于FFT的网页正文提取算法研究与实现[J];计算机工程与应用;2007年30期
5 胡飞;;基于标记树的Web页面区域划分和搜索方法[J];计算机科学;2005年08期
6 张瑞雪;宋明秋;公衍磊;;逆序解析DOM树及网页正文信息提取[J];计算机科学;2011年04期
7 贡正仙;朱巧明;李培峰;;基于相似页面的Web信息抽取系统的实现[J];计算机应用;2006年08期
8 翟献民;田生伟;禹龙;冯冠军;;面向维吾尔语文本的改进后缀树聚类[J];计算机应用;2012年04期
9 张聚弘;山岚;;基于页面对比分析的数据提取[J];计算机与数字工程;2006年01期
10 韩忠明;李文正;莫倩;;有效HTML文本信息抽取方法的研究[J];计算机应用研究;2008年12期
中国重要会议论文全文数据库 前1条
1 胡飞;;一种Web页面的主题区域搜索方法[A];2008年计算机应用技术交流会论文集[C];2008年
中国博士学位论文全文数据库 前3条
1 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
2 宋鑫莹;网络信息自动化高效抽取技术研究[D];哈尔滨工业大学;2013年
3 朱沿旭;面向开源社区的Web数据抽取与挖掘关键技术研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
2 付涛;藏文网页除噪技术研究[D];西北民族大学;2010年
3 丁宝琼;网络文本信息采集分析关键技术研究与实现[D];解放军信息工程大学;2009年
4 戴支荣;基于Lucene的面向主题信息搜索系统的关键技术分析及应用[D];武汉理工大学;2011年
5 张瑞雪;基于DOM树的网页相似度研究与应用[D];大连理工大学;2011年
6 董锐;基于区域定位的购物网站商品信息抽取方法[D];湖南大学;2009年
7 王星;新闻网页抽取技术的研究与实现[D];河北工业大学;2011年
8 邹永强;新闻网页中人物实体关系提取技术研究[D];国防科学技术大学;2011年
9 张立岩;基于网页结构的Web信息提取系统的设计与实现[D];吉林大学;2011年
10 董红臣;基于增量更新的交互式网页内容提取技术研究[D];哈尔滨工程大学;2011年
【二级参考文献】
中国期刊全文数据库 前2条
1 肖建鹏;张来顺;任星;;直推式支持向量机在Web信息抽取中的应用研究[J];计算机工程与应用;2009年02期
2 支宗良;陈少飞;;一种基于XQuery的优化Web信息抽取方法[J];计算机应用;2008年01期
【相似文献】
中国期刊全文数据库 前10条
1 松涛;“吸”尽网络中有用的网页信息[J];电脑知识与技术;2004年13期
2 朱精南,赵明生;网页版面信息分析[J];计算机工程;2004年12期
3 梁邦勇,李涓子,王克宏;基于语义Web的网页推荐模型[J];清华大学学报(自然科学版);2004年09期
4 王海燕;张正凯;任建浩;;从审美角度浅谈网页艺术设计[J];中国电化教育;2004年09期
5 贾海龙,任玉珍;网页艺术设计[J];新乡师范高等专科学校学报;2005年05期
6 刘肖冰;浅谈网页艺术设计[J];安阳师范学院学报;2005年05期
7 孙迎春;;网页设计研究[J];南平师专学报;2005年03期
8 文涛;网页的视觉传达设计与分析[J];沈阳教育学院学报;2005年01期
9 宋春晖;网页设计中的美学应用分析[J];海南师范学院学报(自然科学版);2005年01期
10 张秀虎;;浅谈网页的访问权限[J];教育信息化;2005年17期
中国重要会议论文全文数据库 前10条
1 吴建军;;谈网页设计的艺术性表现[A];经天纬地——全国测绘科技信息网中南分网第十九次学术交流会优秀论文选编[C];2005年
2 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 昝红英;苏玉梅;孙斌;俞士汶;;基于浅层分析的网页相关度研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 孙静;刘正捷;奚小玲;王慧;;帮助盲人理解网页信息的一种网页结构划分方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 曹淮;晁丁丁;;3D元素在网页信息传达中的应用研究[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年
6 马骁;王晓龙;王轩;卜永忠;;基于网页信息结构的网页体裁聚类分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
7 于满泉;谭松波;许洪波;;网页内部结构挖掘技术研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 王宇;黄炜;肖艳芹;任建立;李天柱;;ORBASE用于基于内容的Web查询[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
9 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
10 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
中国重要报纸全文数据库 前10条
1 壮壮;批量保存网页信息[N];电脑报;2004年
2 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
3 星之海洋;迈出网页制作的第一步[N];电脑报;2004年
4 河南 张金贵;FrontPage2000组件详解(四)[N];电脑报;2001年
5 枫尔;网站浏览提速的五大秘方[N];中国证券报;2004年
6 飘零剑客;网络监控利器——AnyView[N];中国电脑教育报;2004年
7 八戒;眨眼之间 答案立现[N];电脑报;2013年
8 ;网络应用 天龙八“步” 申请上网账号[N];电脑报;2002年
9 特约作者 刘丹平 冯小民;搜索无极限[N];电脑报;2002年
10 林立;在线娱乐 乐不停[N];电脑报;2009年
中国博士学位论文全文数据库 前10条
1 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年
2 龚昌盛;基于语义标注的网页广告加载模型研究[D];武汉大学;2010年
3 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
4 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年
5 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
6 刘馨月;Web挖掘中的链接分析与话题检测研究[D];大连理工大学;2012年
7 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年
8 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
9 余伟;基于用户个性挖掘的Web社区营销研究[D];武汉大学;2011年
10 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
中国硕士学位论文全文数据库 前10条
1 高文梁;改进的基于历史信息分析的网页排序算法[D];大连理工大学;2009年
2 刘辉;网页信息过滤系统的研究与设计[D];苏州大学;2009年
3 罗永莲;突发事件语料噪声排除与网页去重方法研究[D];山西大学;2005年
4 张雅洁;网页视觉基础设计与应用研究[D];东北师范大学;2007年
5 程欢;网页中动态色彩及其情感可视化研究[D];哈尔滨工业大学;2011年
6 梁宏伟;网页信息抽取工具的研究[D];长春工业大学;2011年
7 田先桃;一种基于网页关联性特征的钓鱼检测方法[D];南京邮电大学;2012年
8 张晗蒴;网页设计中信息传达有效性探究[D];西安美术学院;2012年
9 盛金根;基于预览效应的网页信息呈现方式及搜索效率[D];西南交通大学;2012年
10 李方;网页信息呈现的单页和多页的工效学研究[D];浙江理工大学;2013年
,本文编号:973484
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/973484.html