当前位置:主页 > 科技论文 > 搜索引擎论文 >

Web记录自动抽取与去重方法的研究与实现

发布时间:2017-12-20 22:11

  本文关键词:Web记录自动抽取与去重方法的研究与实现 出处:《西安电子科技大学》2014年硕士论文 论文类型:学位论文


  更多相关文章: Web记录抽取 数据去重 字符串距离度量


【摘要】:随着网络普及,电子商务的迅猛发展,出现了很多类型的电子商务网站。为了给用户提供便捷的商品导购比价服务,让用户在短时间内找到高质量、低价格、售后完备的商品,购物导航网站的开发势在必行。而Web网页已成为购物导航网站一个丰富的数据源,因此,如何从Web中抽取出完整的商品记录并进行合并去重已成为一个极具价值的问题。 本文通过研究已有的Web记录抽取方法和系统,从中选择了使用DOM树模型的Webharvest工具作为数据抽取工具;接着,在分析了已有数据去重方法之后,,在现有字符串距离度量的基础上,加入了前期的数据处理阶段,提出了基于距离度量的中文数据去重方法,并在实际数据中测试效果良好;最后,在数据去重方法的基础上设计并实现了两种将Web数据抽取和数据去重集成到一起的自动化方法,包括基于搜索引擎过滤的自动化方法和基于语义分词标注的自动化方法。 通过对两种自动化方法的测试,基于搜索引擎过滤的自动化方法结果满足设计要求,实现了将Web数据抽取并去重,并存入本地数据库,为购物导航系统提供后台数据支持。
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092;TP391.3

【共引文献】

中国期刊全文数据库 前10条

1 张小平,马垣;KDD中的数据清理技术研究[J];鞍山科技大学学报;2003年02期

2 刘椿年,宋霞;基于Boosting的半结构化信息抽取[J];北京工业大学学报;2005年02期

3 何章鸿;董守斌;;基于XPath的广告数据提取研究[J];江西师范大学学报(自然科学版);2008年02期

4 陈伟,丁秋林;具有数据清理功能的交互式数据迁移及应用[J];吉林大学学报(信息科学版);2004年02期

5 孙铁民;于杰;尚程;田大新;张丽华;;基于无监督学习的数据清洗算法[J];吉林大学学报(信息科学版);2008年06期

6 何友全;徐澄;徐小乐;唐华姣;;一种基于统计学特征和DOM树的网页去噪技术[J];重庆理工大学学报(自然科学版);2011年01期

7 李绍英;;基于代理技术的比较购物研究[J];当代经理人;2006年10期

8 孙铁利;教巍巍;刘淑华;;Web-Based Information Extraction Technology[J];Journal of Donghua University(English Edition);2007年02期

9 贺令亚;柳佳刚;;基于Web的包装器技术的现状与发展[J];电脑开发与应用;2007年06期

10 刘军;;基于支持向量机的网页主题信息提取算法[J];电脑知识与技术(学术交流);2007年02期

中国重要会议论文全文数据库 前10条

1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年

2 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年

3 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年

4 ;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年

5 陈X;李心科;;基于可扩展数据清理框架的元数据的研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年

6 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年

7 叶娜;吴雪军;朱靖波;陈文亮;;基于相似计算的信息抽取模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年

8 叶娜;罗海涛;朱靖波;张斌;;基于归纳逻辑编程的多槽信息抽取规则自动学习方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

9 钟涛;陈群秀;;基于层式有限状态自动机的灾难事件抽取系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

10 左南;李涓子;唐杰;;基于SVM的肖像照片抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

中国博士学位论文全文数据库 前10条

1 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年

2 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年

3 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年

4 黄莉;基于语义关联的重复数据清理技术研究[D];华中科技大学;2011年

5 龙华;定义问答检索关键技术研究[D];重庆大学;2010年

6 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年

7 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年

8 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年

9 张小刚;关联规则挖掘及其在复杂工业过程控制中的应用研究[D];湖南大学;2002年

10 俞方桦;互联网信息资源整合研究[D];东华大学;2001年

中国硕士学位论文全文数据库 前10条

1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年

2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年

3 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年

4 侯佳奇;社保联网审计中增量数据分布式处理的研究[D];哈尔滨工程大学;2010年

5 王爽;GIS与空间数据挖掘技术在环境污染事故应急处理系统中的应用研究[D];中国海洋大学;2010年

6 王培正;基于Deep Web的网络信息抽取技术研究[D];华南理工大学;2010年

7 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年

8 王葛;Deep Web接口集成与数据标注方法研究[D];长春工业大学;2010年

9 黄亮;知识产权预警机制在服务外包平台中的应用研究[D];南昌大学;2010年

10 赛子龙;日志分析数据同步机制在区域微软技术中心营运平台中的应用研究[D];南昌大学;2010年



本文编号:1313590

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1313590.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3dc07***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com