基于群体特征的页面抽取方法研究
本文选题:页面抽取 切入点:页面聚类 出处:《中国地质大学(北京)》2017年硕士论文 论文类型:学位论文
【摘要】:随着互联网的不断发展,Web已经成为了世界上最大的信息载体。大数据技术的出现为我们提供了获取海量数据的能力。互联网2.0时代的到来,使得信息分发成为了日常获取信息的一个重要的渠道。从互联网海量的页面中提取出这些有用的信息,对于信息的获取与利用具有十分重大的意义。Web页面常用的标记语言是HTML,是一种半结构化语言。常见的Web页面在生成时从数据库读取数据,对模板页面进行渲染得到最终的HTML代码。本文通过对这种Web页面生成方式进行研究总结,提出了基于DOM(Document Object Model)树模型的样本页面融合方式,利用融合后的结果进行节点变化度的统计,找到正文块节点,自动归纳学习出抽取规则的方法。并且在此基础上设计了样本页面聚类的流程,实现了从海量页面中聚集相同模板页面的方法。同时本文针对网站改版导致抽取规则失效的问题进行了重点研究,通过对样本页面聚类的流程进行改进,实现了抽取规则对页面结构变化自适应的功能,真正意义上实现了抽取的自动化。同时利用抽取规则与链接泛化结果对页面进行进一步聚类,从而实现了样本分组的精细化与结构变化的自适应。本文在提出的抽取规则提取算法与样本页面采集框架的基础上设计并实现了一套完成的抽取系统。系统根据算法框架的设计共分为四个模块:样本采集模块、模板提取模块、页面抽取模块、控制调度模块。其中:前三个模块独立运行,可以方便的进行分布式部署;控制调度模块控制着前三个模块的工作流程与数据流动方向。各个模块之间通过网络通信进行交互,通过这种方式不仅保证了系统的高可用性,同时也满足了高吞吐的需求。经实际生产环境证明,该系统可以良好的运行在日均千万级别的抽取环境下。同时在对新闻类页面进行抽取时,抽取结果的查全率与查准率均可以达到很高的水平。
[Abstract]:With the continuous development of the Internet, Web has become the largest information carrier in the world. The emergence of big data technology provides us with the ability to obtain massive data. Information distribution has become an important channel for obtaining information on a daily basis. The useful information is extracted from the massive pages of the Internet. It is of great significance to obtain and utilize information. The commonly used markup language for web pages is HTML, which is a semi-structured language. The final HTML code is obtained by rendering the template pages. This paper proposes a sample page fusion method based on the DOM(Document Object Model tree model through the research and summary of this Web page generation method. Using the fusion results to calculate the degree of change of the nodes, find out the node of the text block, and automatically induce and learn the method of extracting rules, and on this basis, design the flow of the clustering of sample pages. The method of aggregating the same template pages from massive pages is realized. At the same time, this paper focuses on the problem that the website revision results in the invalidation of the extraction rules, and improves the clustering process of the sample pages. The function of adapting extraction rules to the change of page structure is realized, and the automation of extraction is realized. At the same time, the extraction rules and link generalization results are used to further cluster the pages. In this paper, we design and implement a complete extraction system based on the proposed extraction rule extraction algorithm and sample page acquisition framework. The design of the algorithm framework is divided into four modules: sample acquisition module, Template extraction module, page extraction module, control scheduling module. Among them: the first three modules run independently, can be conveniently distributed deployment; The control scheduling module controls the workflow of the first three modules and the direction of data flow. At the same time, it also meets the demand of high throughput. The actual production environment proves that the system can run well in the extraction environment with daily average of ten million levels. At the same time, when extracting news pages, The recall rate and precision rate of the extracted results can reach a very high level.
【学位授予单位】:中国地质大学(北京)
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 邓箴;包宏;;改进的关键词抽取方法研究[J];计算机工程与设计;2009年20期
2 石桢;姚天f ;;一种基于统计和规则的核心地名抽取方法[J];微型电脑应用;2013年02期
3 张世辉;一种新的基于距离的汉字笔画抽取方法[J];计算机工程;2003年14期
4 王大亮;涂序彦;郑雪峰;佟子健;;多策略融合的搭配抽取方法[J];清华大学学报(自然科学版);2008年04期
5 杨建明;;关系抽取方法研究[J];电子技术;2009年04期
6 孙继鹏;贾民;刘增宝;;一种面向文本的概念抽取方法的研究[J];计算机应用与软件;2009年09期
7 郑伟;吕建新;张建伟;;文本分类中特征预抽取方法研究[J];情报科学;2011年01期
8 肖明军,张巍,邹翔,蔡庆生;一种多策略联合信息抽取方法[J];小型微型计算机系统;2005年04期
9 郝博一;夏云庆;邬晓钧;郑方;刘轶;;基于泛化和繁殖的自举式意见目标抽取方法[J];清华大学学报(自然科学版);2009年S1期
10 栗春亮;朱艳辉;徐叶强;;中文产品评论中属性词抽取方法研究[J];计算机工程;2011年12期
相关会议论文 前10条
1 宋涛;李素建;;基于流形排序的领域词抽取方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
2 卞真旭;;一种关键词抽取方法研究[A];2011年安徽省智能电网技术论坛论文集[C];2011年
3 罗斐;毛宇光;;基于领域分类的查询接口模式抽取方法[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
4 栗春亮;朱艳辉;徐叶强;;中文产品评论中属性词抽取方法研究[A];第六届全国信息检索学术会议论文集[C];2010年
5 刘昊;王健;林鸿飞;;一种模板与图核融合的蛋白质关系抽取方法[A];第六届全国信息检索学术会议论文集[C];2010年
6 翁伟;王厚峰;;基于LDA的关键词抽取方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
7 叶娜;罗海涛;朱靖波;张斌;;基于归纳逻辑编程的多槽信息抽取规则自动学习方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 何莉;林鸿飞;;一种面向WEB的生物医学领域英汉术语翻译对抽取方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
9 王建军;李红燕;唐绿岸;应莺;薛明;;基于模板的构件重用和动态模式修改策略[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
10 左云存;宗成庆;;基于HMM的短语翻译对抽取方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
相关重要报纸文章 前2条
1 第七乐章;制作个性化的课件模板[N];中国电脑教育报;2004年
2 湖南省常德市烟草公司 罗先学;建设烟草物流平台势在必行[N];计算机世界;2010年
相关博士学位论文 前4条
1 刘胜宇;生物医学文本中药物信息抽取方法研究[D];哈尔滨工业大学;2016年
2 刘倩;观点挖掘中评价对象抽取方法的研究[D];东南大学;2016年
3 贾晖;基于模板的秦俑三维碎片部位标注技术研究[D];西北大学;2015年
4 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
相关硕士学位论文 前10条
1 陈倩;基于特征模型的跨领域信息抽取方法研究[D];上海大学;2015年
2 刘骁;基于产品评论的意见抽取方法研究[D];黑龙江大学;2015年
3 洪军建;面向社会网络应用的人物关系抽取方法研究[D];西藏大学;2016年
4 梅莉莉;基于领域特殊性和统计语言知识的新词抽取方法[D];北京理工大学;2016年
5 陈亚东;面向数据稀疏问题的英文事件抽取研究[D];苏州大学;2016年
6 朱珠;基于双语的事件抽取方法研究[D];苏州大学;2016年
7 余伟;基于领域知识的Web信息抽取方法研究[D];安徽工程大学;2016年
8 陈茂榕;领域依赖的Web信息抽取系统设计与实现[D];东南大学;2016年
9 刘征;作者资讯中的有用文本信息抽取方法研究[D];东北师范大学;2016年
10 许华;基于有监督学习的医疗实体抽取方法研究[D];武汉科技大学;2016年
,本文编号:1584766
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1584766.html