基于组合特征的网页主题块识别算法
本文关键词:基于组合特征的网页主题块识别算法
更多相关文章: 主题块 VIPS算法 BBM25算法 视觉特征 文本特征 组合特征
【摘要】:在当今的互联网时代,Web是信息的重要来源,网页则是展示信息的重要媒介。网页传递着各种信息,但是其中有大量噪音信息严重影响了 Web信息的自动化挖掘和采集。如何准确的识别出网页的主题信息成为了计算机科学的研究热点。本文对各种Web页面主题信息识别的技术进行了分析和总结,针对仅利用视觉特征或文本特征来识别Web页面主题信息算法的不足,提出了一种基于组合特征的主题块识别算法,实验证明本算法有效的提高了网页主题信息识别的准确率和稳定性。本文的主要研究内容和贡献如下:1)实现并改进了 VIPS算法。改进了网页分块规则,对网页块尺寸阈值采用了动态调整的方式来调整分块粒度,使得分块后的网页块语义更加完整。2)借鉴BM25算法的思想,提出了计算网页块内容与主题相关性的算法模型BBM25。BBM25以网页块为基本单位,从关键词的权重、网页块中关键词的词频、网页块的文本内容长度等几个方面来考虑。3)提出了基于组合特征的主题块识别算法。对网页分块后,本文首先利用SVM根据网页块的视觉特征预测网页块是否为主题块,然后利用BBM25算法计算每个网页块内容与主题的相关性权重值,将权重值与寻找的最佳阈值进行比较从而判断网页块是否为主题块,最后将这两种方式相结合,综合利用网页块的视觉特征和文本特征来判断其是否为主题块。通过实验,本文将基于组合特征的主题块识别算法和基于视觉特征、基于文本特征的主题块识别算法进行了对比,验证了本文提出的基于组合特征识别主题块的算法的准确性和稳定性。
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.092;TP391.1
【相似文献】
中国期刊全文数据库 前10条
1 韩旭;新概念网页设计[J];包装世界;2000年05期
2 朱松岩;;网页设计之特性分析[J];山东省农业管理干部学院学报;2009年03期
3 安琳;;国外网页信息存档项目及相关问题研究[J];图书馆建设;2009年12期
4 蒋桂梅;;网页设计的艺术性[J];电脑知识与技术;2010年05期
5 龙正义;;网页长期保存的策略与方法研究[J];档案管理;2010年03期
6 李志义;梁士金;;国内网页去重技术研究:现状与总结[J];图书情报工作;2011年07期
7 王烁;;美国网页归档项目——Internet Archive发展研究[J];兰台世界;2012年17期
8 栗勇兵;韩平;董启雄;;网页信息自动提取的设计与实现[J];计算机光盘软件与应用;2012年18期
9 何立波;周世波;;网页设计中的艺术研究[J];考试周刊;2011年25期
10 秦永平;网页信息共享技术[J];计算机应用;2000年02期
中国重要会议论文全文数据库 前10条
1 吴建军;;谈网页设计的艺术性表现[A];经天纬地——全国测绘科技信息网中南分网第十九次学术交流会优秀论文选编[C];2005年
2 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 昝红英;苏玉梅;孙斌;俞士汶;;基于浅层分析的网页相关度研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 孙静;刘正捷;奚小玲;王慧;;帮助盲人理解网页信息的一种网页结构划分方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 曹淮;晁丁丁;;3D元素在网页信息传达中的应用研究[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年
6 唐超;刘辰;杨正球;;使用多层迭代分析和分类网页文档的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
7 马骁;王晓龙;王轩;卜永忠;;基于网页信息结构的网页体裁聚类分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
9 于满泉;谭松波;许洪波;;网页内部结构挖掘技术研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 王宇;黄炜;肖艳芹;任建立;李天柱;;ORBASE用于基于内容的Web查询[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
中国重要报纸全文数据库 前10条
1 本报记者 曾居仁 通讯员 郝金荣;贵州“万村千乡”网页工程开辟为农服务新渠道[N];中国气象报;2012年
2 壮壮;批量保存网页信息[N];电脑报;2004年
3 罗震宇 严小斌;一种新型WEB开发技术的探讨[N];中国冶金报;2011年
4 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
5 星之海洋;迈出网页制作的第一步[N];电脑报;2004年
6 河南 张金贵;FrontPage2000组件详解(四)[N];电脑报;2001年
7 枫尔;网站浏览提速的五大秘方[N];中国证券报;2004年
8 飘零剑客;网络监控利器——AnyView[N];中国电脑教育报;2004年
9 八戒;眨眼之间 答案立现[N];电脑报;2013年
10 ;网络应用 天龙八“步” 申请上网账号[N];电脑报;2002年
中国博士学位论文全文数据库 前10条
1 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年
2 龚昌盛;基于语义标注的网页广告加载模型研究[D];武汉大学;2010年
3 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
4 徐晴阳;基于关系子群发现算法的聚焦爬行技术[D];吉林大学;2008年
5 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
6 刘馨月;Web挖掘中的链接分析与话题检测研究[D];大连理工大学;2012年
7 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年
8 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年
9 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
10 余伟;基于用户个性挖掘的Web社区营销研究[D];武汉大学;2011年
中国硕士学位论文全文数据库 前10条
1 敖志敏;基于网页相似度的搜索算法改进的研究[D];上海师范大学;2015年
2 杨寻;地域文化的视觉元素在旅游网页设计中的应用研究[D];西南交通大学;2015年
3 张W,
本文编号:1287834
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1287834.html