当前位置:主页 > 科技论文 > 搜索引擎论文 >

林业WEB黄页信息整合中数据去重关键技术研究

发布时间:2018-07-02 09:39

  本文选题:WEB信息整合 + 逐级聚类数据去重 ; 参考:《北京林业大学》2013年硕士论文


【摘要】:对互联网中海量、异构、动态、离散的WEB信息进行整合,是实现垂直搜索引擎,提供高效主题信息服务的基础。林业WEB黄页是重要的林业信息资源,整合Internet上不同站点的林业电子黄页,形成全面而专业的林业WEB黄页数据库,为精准搜索、查询、对比乃至个性化服务提供数据支持,具有显著的应用价值。已有的研究已将不同林业站点中的林业黄页数据进行了初步的整合,然而由于WEB数据更新与变化频繁、输入有误等原因,整合信息中存在大量“脏数据”:包括异常数据、不完整数据和重复数据等,其中多数据源合并造成的重复数据是最关键的问题,因此数据去重成为一个研究的热点。 本文首先介绍了数据去重的基本原理、常用算法,分析了其优缺点,然后结合林业WEB黄页的特点,重点提出了一种逐级聚类的数据去重方法,该方法首先通过关键属性分割和Canopy聚类将大记录集划分成小记录集,然后精确聚类重复记录。在精确聚类时,本文提出了基于动态权重的模糊实体匹配策略,并对黄页名称的特殊性进行处理,提高去重准确率。最后设计并实现了林业WEB黄页数据去重系统,并实验验证了所提方法在时间效率和准确率上均优于传统算法,具有较强的实用性,能够有效的解决林业WEB黄页整合中的数据去重问题。
[Abstract]:The integration of mass , heterogeneous , dynamic and discrete WEB information in the Internet is the basis for realizing vertical search engine and providing efficient subject information service . The forestry WEB Yellow Pages is an important forestry information resource , which integrates the forestry electronic yellow pages of different sites on the Internet . It has significant application value .

This paper first introduces the basic principle of data de - duplication , commonly used arithmetic , analyzes its advantages and disadvantages , then combines the characteristics of forestry WEB yellow page , and puts forward a data de - duplication method based on dynamic weight . The method firstly designs and implements fuzzy entity matching strategy based on dynamic weight , and verifies the particularity of the yellow page name . Finally , the paper designs and implements the forestry WEB yellow page data deduplication system , and the experiment proves that the proposed method is superior to the traditional algorithm in time efficiency and accuracy , and has strong practicability and can effectively solve the data de - duplication problem in the forestry WEB yellow page integration .
【学位授予单位】:北京林业大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 宋如顺,姜乃松;基于Web的远程考试系统设计与实现[J];计算机工程;1999年06期

2 王红霞,姚家亮;利用ASP构建新型信息系统的方法与实现[J];计算机应用;1999年09期

3 邓劲生,张银福;面向对象的多媒体信息WEB发布[J];计算机应用研究;1999年09期

4 刁兴春,李赤红;Intranet环境下事务处理的理论研究和实现[J];小型微型计算机系统;1999年06期

5 高昆;基于ASP的WEB站点开发技术分析[J];北华大学学报(社会科学版);1999年05期

6 王清心,胡建华;经贸数据库的WEB集成发布[J];昆明理工大学学报;1999年02期

7 李晶,朱秋萍;Web页制作中的动态表现技术[J];计算机工程;2000年06期

8 刘波,代亚非,杜跃进;远程协同教学系统中课程搜索子系统设计[J];计算机应用;2000年06期

9 武庄,刘友丹;基于Web的企业内部质量审核系统设计与实现[J];计算机应用研究;2000年05期

10 梁开健,刘新民;基于ASP的图书馆Web数据库开发[J];高校图书馆工作;2000年04期

相关会议论文 前10条

1 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

2 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年

3 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年

4 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年

5 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年

6 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

7 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七届中国控制会议论文集[C];2008年

8 胡建强;周斌;尹刚;邹鹏;;基于角色的Web服务访问控制技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年

9 黄建波;丁扬;方芳;;基于代理服务器的Web加速的实现[A];2010通信理论与技术新发展——第十五届全国青年通信学术会议论文集(上册)[C];2010年

10 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年

相关重要报纸文章 前10条

1 赵晓涛;Web安全 服务为王[N];网络世界;2008年

2 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年

3 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年

4 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年

5 闫冰;“推”出Web交付新天地[N];网络世界;2009年

6 赵晓涛;中国成全球Web安全新看点[N];网络世界;2009年

7 边歆;动态阻断Web2.0威胁[N];网络世界;2009年

8 泰乐公司首席技术官兼执行副总裁Vikram Saksena;学习Web 3.0 做聪明的“管道工”[N];通信产业报;2009年

9 ;Web2.0工具使用须谨慎[N];网络世界;2009年

10 Anchiva中国区总经理 李松;Web安全选型三个标准[N];网络世界;2008年

相关博士学位论文 前10条

1 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年

2 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年

3 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年

4 黄雪娟;语义Web服务及其合成方法的研究[D];武汉大学;2009年

5 朱俊武;基于本体的Web服务语义支撑技术研究[D];南京航空航天大学;2008年

6 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年

7 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年

8 王秀峰;Web导航中用户认知特征及行为研究[D];南京大学;2013年

9 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年

10 陈世展;服务网络:基于语义和社会化关系的Web服务计算基础设施[D];天津大学;2010年

相关硕士学位论文 前10条

1 唐黎;Deep Web页面结构分析与核心内容提取研究[D];重庆大学;2011年

2 吴新勇;基于需求群组的Web服务调度模型研究[D];上海交通大学;2011年

3 徐卫;Web新闻热点发现系统的设计与实现[D];华中科技大学;2011年

4 姜本臣;基于嵌入式Web服务器应用技术的研究[D];沈阳工业大学;2012年

5 温梨梨;基于零拷贝的Web服务器技术研究[D];中国海洋大学;2011年

6 焦燕廷;一种基于领域本体的语义Web服务匹配和组合方法[D];山东科技大学;2011年

7 黄亮;Web漏洞扫描系统中的智能爬虫技术研究[D];杭州电子科技大学;2012年

8 赵春娟;Web服务组合方法的研究与实现[D];天津理工大学;2011年

9 任强;基于谓词抽象与精化技术的Web服务验证研究[D];苏州大学;2011年

10 侯晓帆;基于云计算的Web教育爬虫[D];东北师范大学;2011年



本文编号:2089703

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2089703.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8d7d3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com