基于规则的论坛爬取与抽取一体化
本文选题:Web数据管理 切入点:数据爬取 出处:《华东师范大学》2011年硕士论文 论文类型:学位论文
【摘要】:近些年来,论坛、博客和微博等相继出现在互联网应用中,并逐渐成为人们发布互联网信息的主要方式。其中,论坛已成为信息发布、共享和传播的重要平台。论坛的内容由普通用户创建和发布,对于舆情分析、互联网广告推荐等应用具有重要意义。 数据爬取(Data Crawler)是数据分析和应用的前提。传统的爬取技术以页面为单位爬取网页,并将数据的处理与分析放在网页爬取之后。这种方式不适合论坛数据的爬取。这主要是有以下两方面的原因:首先,论坛数据具有较强的结构性。传统的爬虫以单个页面为单位进行数据的爬取,忽略了论坛页面的内在结构和页面间的关联。其次,数据大都隐藏于网络页面的结构中。传统的爬虫保存页面的完整信息,不对页面进行数据处理。 因此,本文提出了一种新的数据爬取和信息抽取一体化的论坛数据爬取方法,并在该方法的基础上设计与实现了InForCE系统。该系统分析论坛导航页面的结构和内容,以此进行帖子页面爬取任务的调度,并按照论坛内容对爬取的数据进行组织与管理。InForCE系统由爬虫、HTML解析器、链接池、学习器和规则库组成:爬虫用于爬取网页。HTML解析器将HTML页面转化为用于信息抽取的XHTML页面。链接池用于判断系统的调度策略。规则学习器和规则库用于页面的信息抽取。 本文的主要贡献总结如下: 1.将页面爬取、结构分析和内容抽取相结合,并根据信息单元(而不是页面)对爬取任务进行调度,对爬取的数据进行管理。信息单元是一个帖子的所有信息。论坛页面类型包括导航页面和帖子页面。导航页面以列表的形式展示了所有讨论的主题。帖子页面显示主题和关于主题的跟帖。导航页面的内容决定帖子页面的爬取调度策略,并将同一个帖子的所有内容组织在同一个文档中。 2.提出了一种基于XML和XPath模式的描述性模式映射规则,并将其用于论坛数据的抽取与转化。XPath模式表示一组XPath的特征。它被用于定义模式映射规则。模式映射规则表示从源文档(通常为XHTML格式)到目标文档(通常为XML格式)的数据映射关系。 3.使用规则学习器简化信息抽取的过程。通过机器学习的方式获取模式映射规则,并将其自动转化为XSLT,从而实现从论坛页面到最终结果的转换。规则的自动转化使不具有XSLT知识的用户也能够快速完成数据的抽取任务。 综上所述,我们分析了论坛数据获取过程中存在的问题,并针对论坛的数据特征设计了InForCE系统。本文以篱笆论坛为实验,定义数据抽取模型,学习模式映射规则,并进行论坛数据的爬取和抽取。目前,InForCE系统能够成功的运行在篱笆论坛和搜房论坛上,获得的论坛页面达到380G,抽取的论坛数据达到40G。最后,通过实验证明该系统能够高效的爬取、抽取和组织论坛数据。
[Abstract]:In recent years, forums, blogs and Weibo have appeared in Internet applications one after another, and have gradually become the main way for people to publish information on the Internet. The content of the forum is created and published by ordinary users, which is of great significance to the application of public opinion analysis, Internet advertising recommendation and so on. Data crawling data Crawler is the premise of data analysis and application. And put the data processing and analysis after the web crawling. This method is not suitable for the crawling of forum data. This is mainly for the following two reasons: first, The traditional crawler crawls the data on a single page, neglecting the internal structure of the forum page and the correlation between the pages. Secondly, Most of the data are hidden in the structure of the web page. The traditional crawler saves the complete information of the page and does not deal with the data of the page. Therefore, this paper proposes a new method of data crawling and information extraction, and designs and implements a InForCE system based on this method. The system analyzes the structure and content of the forum navigation page. According to the content of the forum, the crawling data is organized and managed by the crawler HTML parser and link pool. Learner and rule base: crawler is used to crawl web page. HTML parser transforms HTML page into XHTML page for information extraction. Link pool is used to judge system scheduling strategy. Rule learner and rule base are used for page information extraction. The main contributions of this paper are summarized as follows:. 1. Combine page crawling, structure analysis and content extraction, and schedule crawling tasks according to the information unit (not the page). Manage crawling data. The information unit is all the information for a post. Forum page types include navigation pages and post pages. Navigation pages show all the topics discussed in a list. Post pages display. The content of the navigation page determines the crawling and scheduling strategy of the post page, And organize all the content of the same post in the same document. 2. A descriptive schema mapping rule based on XML and XPath schema is proposed. It is used to extract and transform the forum data. XPath schema represents the characteristics of a set of XPath. It is used to define schema mapping rules. Schema mapping rules represent from the source document (usually in XHTML format) to the target document (usually XML). Format). 3. Using rule learner to simplify the process of information extraction. The automatic transformation of the rules from the forum page to the final result enables users who do not have XSLT knowledge to quickly complete the task of data extraction. To sum up, we analyze the problems existing in the process of data acquisition, and design a InForCE system based on the data features of the forum. In this paper, we define the model of data extraction and the rules of learning pattern mapping by taking the fencing forum as an experiment. At present, the InForCE system can run successfully on the fencing forum and the search room forum, the forum pages obtained reach 380G, and the extracted forum data reaches 40G. finally, Experiments show that the system can crawl, extract and organize forum data efficiently.
【学位授予单位】:华东师范大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP393.092
【共引文献】
相关期刊论文 前8条
1 李向阳,陆建江,张亚非;基于竞争分类的Web信息抽取[J];电子学报;2004年11期
2 李向阳;戴江山;张亚非;;一种Web信息抽取规则的优化方法[J];兰州理工大学学报;2006年01期
3 李永平,金莉;基于填充标记的自适应Web信息提取[J];华中科技大学学报(自然科学版);2003年11期
4 杜永萍;黄萱菁;吴立德;;模式学习在QA系统中的有效实现[J];计算机研究与发展;2006年03期
5 梁红兵,杨铭魁,黄晓;基于反馈规则学习的医学文献主题自动标引方法[J];计算机工程;2003年11期
6 钟敏娟;郝谦;刘云中;;基于多模板隐马尔可夫模型的文本信息抽取算法[J];计算机工程;2006年02期
7 李向阳,张亚非;一种军用文图自动转换方案[J];情报指挥控制系统与仿真技术;2004年05期
8 郭太飞;何洁月;;归纳学习XPATH Web信息提取规则[J];计算机技术与发展;2007年03期
相关会议论文 前10条
1 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
2 LI Xiang-yang , ZHANG Ya-fei , LU Jian-jiang, XU Bao-wen Institute of Communications Engineering, People's Liberation Army University of Science and Technology, Nanjing 210007, Jiangsu, China; Department of Computer Science and Engineering, Southeast University, Nanjing 210096, Jiangsu, China;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
3 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
4 叶娜;吴雪军;朱靖波;陈文亮;;基于相似计算的信息抽取模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 叶娜;罗海涛;朱靖波;张斌;;基于归纳逻辑编程的多槽信息抽取规则自动学习方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 钟涛;陈群秀;;基于层式有限状态自动机的灾难事件抽取系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 左南;李涓子;唐杰;;基于SVM的肖像照片抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 LI Xiang-yang~1, ZHANG Ya-fei~1, LU Jian-jiang~(1,2), XU Bao-wen~2 1. Institute of Communications Engineering, People's Liberation Army University of Science and Techndogy. Nanjing 210007, Jiangsu, China; 2. Department of Computer Science and Engineering. Southeast University, Nanjing 210096, Jiangsu, China;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications(WISA 2004)[C];2004年
9 Suxiang Zhang,Juan Wen ,Ying Qin ,Xiaojie Wang ,Yixin Zhong School of Information Engineering, Beijing University of Posts and Telecommunications, Beijing, 100876, P. R. China Department of Electronic and Communication Engineering, North China Electric Power University, Baoding, 071003, P. R. China;The Research and Application about the Information Extraction in Chinese Domain[A];第八届国际信号处理国际会议论文集[C];2006年
10 周剑辉;苑春法;黄锦辉;李文捷;;金融领域内信息抽取规则的自动获取[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
相关博士学位论文 前10条
1 俞方桦;互联网信息资源整合研究[D];东华大学;2001年
2 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
3 郑桂华;基于网络的语文校本课程研究与实践[D];华东师范大学;2004年
4 邓绪斌;面向复杂数据源的数据抽取模型和算法研究[D];复旦大学;2005年
5 杜永萍;基于模式知识库的问题回答关键技术研究[D];复旦大学;2005年
6 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年
7 李晓黎;WEB信息检索与分类中的数据采掘研究[D];中国科学院研究生院(计算技术研究所);2001年
8 贾自艳;Web信息智能获取若干关键问题研究[D];中国科学院研究生院(计算技术研究所);2004年
9 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
10 黄友平;贝叶斯网络研究[D];中国科学院研究生院(计算技术研究所);2005年
相关硕士学位论文 前10条
1 陈少飞;Web信息抽取规则的优化及规则的XQuery表达[D];河北大学;2003年
2 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
3 刘云中;基于隐马尔可夫模型的文本信息抽取算法研究[D];湖南大学;2004年
4 吕行;基于XML的异构数据源集成系统研究与应用[D];河海大学;2004年
5 李跃进;基于Internet的信息抽取技术研究[D];大连理工大学;2005年
6 雷庆;识别和抽取Web中的关系信息及其出现模式[D];华侨大学;2005年
7 李智;基于树结构的网页数据自动抽取方法的研究与实现[D];吉林大学;2005年
8 张玉良;一种基于后缀树的包装器自动生成方法的研究[D];吉林大学;2005年
9 马安香;基于分类语义的Web信息抽取机制的研究与实现[D];东北大学;2005年
10 叶娜;面向信息抽取的文本预处理和规则自动学习技术研究[D];东北大学;2005年
,本文编号:1594446
本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/1594446.html