当前位置:主页 > 科技论文 > 搜索引擎论文 >

林业企业黄页Deep Web数据集成研究

发布时间:2018-05-15 08:01

  本文选题:林业企业黄页 + Deep ; 参考:《北京林业大学》2012年硕士论文


【摘要】:由于互联网技术的飞速发展,Web信息急剧膨胀,传统搜索引擎注重查全率而查准率不足,导致Web信息搜索越来越困难。特定领域的Deep Web网站上蕴藏着丰富的主题信息,但是这些Deep Web网站通常是分散的、不易检索的,因此,Deep Web数据集成技术逐渐成为研究热点。它不但可以解决传统搜索引擎不能索引Deep Web数据的局限,还能把各个孤立的Deep Web数据集成到一起,提供面向主题的一站式搜索服务。林业Deep Web情况亦然,用户难以利用传统的技术全面快速地收集Deep Web中的企业信息,使用Deep Web数据集成技术对林业企业黄页进行集成,提供高效专业化的Web信息服务,能够让用户更快的找到相关信息,不仅促进林业信息化发展,同时,也有利于推动林业经济的发展。 本文通过对林业企业黄页Deep Web特征的分析,提出根据层次结构制定导航规则的Deep Web爬虫模型,设计出数据抽取的模板。同时,本文还对用户身份验证、导航URL提取、翻页URL提取、页面属性字段的提取、数据去重等Deep Web数据集成关键技术做了探索性的研究,通过实验对各种方案进行了尝试和比较,然后给出了最优的解决方案,并最终开发出高可用性的林业企业黄页Deep Web数据集成系统。最后,本文对系统的改进做了一些展望,为进一步的研究提供了基础。
[Abstract]:Due to the rapid development of Internet technology and the rapid expansion of web information, the traditional search engines pay more attention to recall and insufficient precision, which makes it more and more difficult to search for Web information. There are abundant subject information on Deep Web websites in specific fields, but these Deep Web websites are usually scattered and difficult to retrieve. Therefore, deep Web data integration technology is becoming a hot research topic. It can not only solve the limitation that traditional search engine can not index Deep Web data, but also integrate all isolated Deep Web data together to provide a one-stop search service for topic oriented. The same is true of forestry Deep Web. It is difficult for users to collect enterprise information in Deep Web by traditional technology, and to integrate yellow pages of forestry enterprises with Deep Web data integration technology to provide efficient and specialized Web information service. It not only promotes the development of forestry information, but also promotes the development of forestry economy. Based on the analysis of Deep Web features of yellow pages in forestry enterprises, this paper proposes a Deep Web crawler model for navigation rules based on hierarchical structure, and designs a template for data extraction. At the same time, the key technologies of Deep Web data integration, such as user authentication, navigation URL extraction, page turning URL extraction, page attribute field extraction, data de-reprocessing and so on, are also studied in this paper. This paper attempts and compares various schemes through experiments, then gives the optimal solution, and finally develops a high-availability yellow page Deep Web data integration system for forestry enterprises. Finally, this paper makes some prospects for the improvement of the system, which provides the basis for further research.
【学位授予单位】:北京林业大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP393.09;F326.2

【参考文献】

相关期刊论文 前10条

1 陈鹏;刘烈宏;;深度web资源搜索关键技术[J];北京航空航天大学学报;2009年01期

2 王建红;中国黄页:“钱景”广阔 市场混乱[J];出版参考;2004年34期

3 张成洪,肖军建,张诚;Web内容抽取及其数据管理方法[J];复旦学报(自然科学版);2001年02期

4 黄谦,徐建新;电信运营商的"黄页"产品组合与推广对策[J];改革与战略;2005年01期

5 杨叶飞;;黄页价值及开发策略探讨[J];广西轻工业;2009年07期

6 熊海军,王保义,张少敏,张琦;基于XML的Web数据集成研究[J];华北电力大学学报;2004年05期

7 李胜利;李昌清;袁平鹏;刘英书;;基于Web的电子期刊元数据信息抽取方法[J];华中科技大学学报(自然科学版);2007年12期

8 胡东东,孟小峰;一种基于树结构的Web数据自动抽取方法[J];计算机研究与发展;2004年10期

9 张金隆,李魁,鲍玉昆,曾宇容;基于XML技术的Web数据集成模型研究[J];计算机工程与应用;2004年14期

10 彭洪汇;林作铨;;Internet上的搜索引擎和元搜索引擎[J];计算机科学;2002年09期

相关博士学位论文 前1条

1 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年

相关硕士学位论文 前3条

1 黄波;主题搜索引擎的研究与应用[D];成都理工大学;2007年

2 杨虎;面向海量短文本去重技术的研究与实现[D];国防科学技术大学;2007年

3 陈佳佳;Deep Web数据集成研究及其在购书领域中的应用[D];暨南大学;2010年



本文编号:1891639

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1891639.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户64563***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com