基于多特征的网页信息抽取技术的研究与应用
本文关键词:基于多特征的网页信息抽取技术的研究与应用,由笔耕文化传播整理发布。
《中国海洋大学》 2015年
基于多特征的网页信息抽取技术的研究与应用
陈屹
【摘要】:随着Internet的高速发展,互联网上的信息越来越多,呈现爆炸式增长,以互联网信息为数据基础的云计算和大数据分析技术随之兴起。然而,在互联网上所有的网页不仅含有重要信息,同时也包含了与主题信息、无关的噪声信息、,比如广告信息,导航栏等。它们严重影响了信息抽取的准确性,因而网页信息抽取技术的研究应运而生,成为研究的热点。另一方面,在现有的网页信息抽取方法中,其重点在于区分页面的重要信息和噪声信息,提高重要信息抽取的准确性和效率性,但对于抽取后网页信息数据却缺乏形式化组织,导致获取的重要信息相互杂糅在一起,形成了无法区分的整段信息,无法对重要信息再进行分类,导致抽取的网页信息粒度较粗,在后续应用中可用性较差。本文介绍了网页信息抽取技术的发展、原理和相关技术,深入讨论了现有网页信息抽取技术,重点研究了VIPS算法。本文主要研究点如下:(1)针对现有网页信息形式化组织的缺乏,本文提出了一种网页信息形式化描述,在清除了网页噪声信息的基础上,将原有网页重要信息、的粗粒度进行细分,针对互联网中比重最大的门户类网站,我们将网页重要信息描述为主题,发表日期,浏览次数,正文信息、,多媒体信息,评论信息等形式化结构,同时为每部分形式化描述设置不同权重,根据信息抽取结果中是否存在相应部分来判断单个网页的信息、抽取的准确性。同时抽取的重要信息通过形式化描述进行了细化,形成了更加规范和严格的数据组织形式,为以后的数据分析和其他应用提供了更高的可用性。(2)针对现有信息抽取算法对本文提出的网页信息形式化组织支持方面的缺乏以及现有抽取技术的不足,本文提出了一种针对网页信息形式化组织的基于VIPS算法改进的网页信息抽取技术。本技术结合了DOM结构和视觉特征两方面,采用自上而下,逆序解析DOM结构,同时利用视觉特征和DOM结构特征作为信息抽取的依据,将标签分块和视觉分块相互结合,同时根据网页信息的形式化描述结构对块进行分类,对于同属一个形式化描述结构的相似块,根据其标签路径等特征对相似块进行合并,最终将网页抽取的重要信息根据其形式化描述分成不同块,此技术综合了网页DOM结构和视觉特征的优势,提高了网页信息抽取的准确率最后,将本文提出的信息抽取方法与其他传统的信息抽取算法进行了比较,并将其抽取结果应用于提出的网页信息形式化组织。经过仿真实验表明,本文提出的网页信息形式化描述更规范,更有利用价值,同时提出的方法抽取信息、具有更高的分类准确性。最终我们将其在现有的传统网页移动化系统中进行了应用试验,实例是基于青岛某大学的PC网站设计的移动校园网站,该移动网站主要用于在移动设备上访问,包括Android以及iOS等智能终端,较好的提高了网页信息重组后的用户体验,取得了比较理想的实验效果。
【关键词】:
【学位授予单位】:中国海洋大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092;TP391.1
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【参考文献】
中国期刊全文数据库 前10条
1 郑长松;傅彦;佘莉;;基于模板的Web信息自动提取方法[J];计算机应用研究;2009年02期
2 梅雪;程学旗;郭岩;张刚;丁国栋;;一种全自动生成网页信息抽取Wrapper的方法[J];中文信息学报;2008年01期
3 殷贤亮;李猛;;基于分块的网页主题信息自动提取算法[J];华中科技大学学报(自然科学版);2007年10期
4 谢华;刘卫国;;基于局部语义的网页净化算法[J];计算机系统应用;2007年05期
5 王功明;吴华瑞;赵春江;杨宝祝;;正则表达式在电子政务客户端校验中的应用[J];计算机工程;2007年09期
6 赵欣欣;索红光;刘玉树;;基于标记窗的网页正文信息提取方法[J];计算机应用研究;2007年03期
7 刘艳敏;刘飚;封化民;宋国森;方勇;;Web页面主题信息抽取研究与实现[J];计算机工程与应用;2006年21期
8 吴鹏飞;孟祥增;刘俊晓;马凤娟;;基于结构与内容的网页主题信息提取研究[J];山东大学学报(理学版);2006年03期
9 于满泉,陈铁睿,许洪波;基于分块的网页信息解析器的研究与设计[J];计算机应用;2005年04期
10 金炳尧;马永进;骆红波;吴樟兴;;阅卷信息的形式化描述及其应用[J];计算机科学;2005年01期
【共引文献】
中国期刊全文数据库 前10条
1 马凯;;基于微博数据采集的Web信息集成系统研究[J];现代电子技术;2016年11期
2 苏秀芝;;基于网页Title标签的正文提取方法[J];福建电脑;2016年04期
3 胡瑞;郭星;黄永聪;;基于视觉特征的主题型网页信息抽取[J];赤峰学院学报(自然科学版);2016年06期
4 张忠培;刘家宇;;面向移动终端的网页适配技术研究[J];信息化建设;2016年01期
5 夏立新;楚林;王忠义;石义金;李京蔚;;基于网络文本挖掘的就业知识需求关系构建[J];图书情报知识;2016年01期
6 李湘东;霍亚勇;张娇;;基于LDA主题模型的图书网页书目信息提取研究[J];情报科学;2016年01期
7 娄建楼;史春雷;;大数据下基于页面复杂度的文本抽取方法[J];数字技术与应用;2015年12期
8 付华峥;陈翀;向勇;刘春;;分布式大数据采集关键技术研究与实现[J];广东通信技术;2015年10期
9 王孟頔;邰泳;;基于VIPS的职位信息抽取技术研究[J];软件导刊;2015年09期
10 秦成磊;魏晓;杨阳;;一种基于统计的复杂页面正文提取方法[J];计算机应用与软件;2015年07期
【二级参考文献】
中国期刊全文数据库 前10条
1 王静;姚勇;刘志镜;;基于广义隐马尔可夫模型的网页信息抽取方法[J];山东大学学报(理学版);2007年11期
2 殷贤亮;李猛;;基于分块的网页主题信息自动提取算法[J];华中科技大学学报(自然科学版);2007年10期
3 张茂元;张金隆;卢正鼎;邹春燕;;基于特征相关学习的网页信息提取方法[J];华中科技大学学报(自然科学版);2007年07期
4 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期
5 周璐;我国电子政务信息安全建设探讨[J];理论与现代化;2005年S1期
6 刘小波,谢芊,李留英;应用正则表达式在ASP.NET中实现优化的输入验证方法[J];现代图书情报技术;2005年10期
7 颜小兵;电子政务中的信息安全策略和实现[J];计算机与数字工程;2005年10期
8 贺桂和,刘灿姣;论电子政务、电子商务与电子社区建设的统一[J];情报杂志;2005年10期
9 叶文晖,梁里宁;在ASP.NET中利用正则表达式实现模式验证[J];电脑知识与技术;2005年24期
10 胡飞;;基于标记树的Web页面区域划分和搜索方法[J];计算机科学;2005年08期
【相似文献】
中国期刊全文数据库 前10条
1 朱松岩;;网页设计之特性分析[J];山东省农业管理干部学院学报;2009年03期
2 安琳;;国外网页信息存档项目及相关问题研究[J];图书馆建设;2009年12期
3 蒋桂梅;;网页设计的艺术性[J];电脑知识与技术;2010年05期
4 龙正义;;网页长期保存的策略与方法研究[J];档案管理;2010年03期
5 李志义;梁士金;;国内网页去重技术研究:现状与总结[J];图书情报工作;2011年07期
6 王烁;;美国网页归档项目——Internet Archive发展研究[J];兰台世界;2012年17期
7 栗勇兵;韩平;董启雄;;网页信息自动提取的设计与实现[J];计算机光盘软件与应用;2012年18期
8 何立波;周世波;;网页设计中的艺术研究[J];考试周刊;2011年25期
9 秦永平;网页信息共享技术[J];计算机应用;2000年02期
10 项镇;网页设计新概念[J];江西教育学院学报(自然科学);2001年06期
中国重要会议论文全文数据库 前10条
1 吴建军;;谈网页设计的艺术性表现[A];经天纬地——全国测绘科技信息网中南分网第十九次学术交流会优秀论文选编[C];2005年
2 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 昝红英;苏玉梅;孙斌;俞士汶;;基于浅层分析的网页相关度研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 孙静;刘正捷;奚小玲;王慧;;帮助盲人理解网页信息的一种网页结构划分方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 曹淮;晁丁丁;;3D元素在网页信息传达中的应用研究[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年
6 唐超;刘辰;杨正球;;使用多层迭代分析和分类网页文档的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
7 马骁;王晓龙;王轩;卜永忠;;基于网页信息结构的网页体裁聚类分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
9 于满泉;谭松波;许洪波;;网页内部结构挖掘技术研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 王宇;黄炜;肖艳芹;任建立;李天柱;;ORBASE用于基于内容的Web查询[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
中国重要报纸全文数据库 前10条
1 本报记者 曾居仁 通讯员 郝金荣;[N];中国气象报;2012年
2 壮壮;[N];电脑报;2004年
3 罗震宇 严小斌;[N];中国冶金报;2011年
4 钱鹏;[N];电脑报;2004年
5 星之海洋;[N];电脑报;2004年
6 河南 张金贵;[N];电脑报;2001年
7 枫尔;[N];中国证券报;2004年
8 飘零剑客;[N];中国电脑教育报;2004年
9 八戒;[N];电脑报;2013年
10 ;[N];电脑报;2002年
中国博士学位论文全文数据库 前10条
1 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年
2 龚昌盛;基于语义标注的网页广告加载模型研究[D];武汉大学;2010年
3 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
4 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年
5 徐晴阳;基于关系子群发现算法的聚焦爬行技术[D];吉林大学;2008年
6 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
7 刘馨月;Web挖掘中的链接分析与话题检测研究[D];大连理工大学;2012年
8 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年
9 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年
10 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 敖志敏;基于网页相似度的搜索算法改进的研究[D];上海师范大学;2015年
2 杨寻;地域文化的视觉元素在旅游网页设计中的应用研究[D];西南交通大学;2015年
3 张垚;高校网页简介英文翻译研究[D];华中师范大学;2015年
4 刘丹;改进的基于DIV迭代査找和信息增益的网页特征选择算法[D];山东大学;2015年
5 龚敏;从中西文化差异看中国高校网页英语简介[D];福建师范大学;2015年
6 吕芳;基于视觉特征的钓鱼网页相似性计算技术研究[D];哈尔滨工业大学;2015年
7 刘梦琪;网页设计中的动画创意研究[D];安徽工程大学;2015年
8 孙仲浩;网页图片无障碍替代文本自动生成算法设计与实现[D];浙江大学;2015年
9 戴松;面向聚焦的Web网页获取和信息抽取方法研究[D];上海大学;2015年
10 房勇;企业多源舆情监测系统研究与实现[D];复旦大学;2014年
本文关键词:基于多特征的网页信息抽取技术的研究与应用,,由笔耕文化传播整理发布。
本文编号:234887
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/234887.html