实体解析技术研究与应用
发布时间:2017-05-09 06:04
本文关键词:实体解析技术研究与应用,由笔耕文化传播整理发布。
【摘要】:传统的实体解析是指,给定一个或多个描述现实世界的引用集合,识别其中对应于现实世界中同一实体的所有引用的过程。实体解析是数据清理,数据集成,数据挖掘等技术中关键的一步,是数据质量的保障。对于实体解析相关课题的研究其实早已起步,而由于近几年网络的迅速普及和数据规模的爆炸性增长,如何在海量数据中准确获取所需的信息,如何消除相似数据的歧义,如何检测出数据中的错误信息等已成为在生活生产中亟待解决的关键问题,实体解析也因此成为近几年热门的研究课题。随着研究的深入,已经有不少的研究成果被应用于各个领域,包括保险、银行、医疗等。论文中介绍了实体解析含义,背景起源,以及算法基础。列举并解释了实体解析发展过程中的经典算法包括成对实体解析,集合实体解析,大数据的实体解析等,以及它们的特点和局限性,分享了在新的应用环境下衍生出来的针对不同需求的新的实体解析算法。由于电子商务的兴起,对网络产品的精确识别成了亟待解决的具有极高应用价值的课题。网络数据具有无标准,无结构的特性,这与传统的实体解析问题的应用背景不同,是新的挑战同时也是新的机遇,论文将对网络产品的识别进行重点研究--分析现有的几种识别算法,包括WHIRL和TMWM算法,并进行实验分析比较,同时进行改进,加入更多的识别信息,如产品的属性,然后提出了SSM算法,提高了产品识别的精度和准度,并从字符串相似度缓存,约束知识库和分块策略三个方面对SSM算法进行优化,提高了算法的运行速度。
【关键词】:实体解析 记录链接 集合数据 复杂数据 大数据 网络产品解析
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13
【目录】:
- 摘要3-4
- Abstract4-6
- 第一章 绪论6-9
- 1.1 引言6-7
- 1.2 研究背景7-8
- 1.3 论文的研究内容与章节安排8-9
- 第二章 实体解析相关算法研究9-29
- 2.1 引言9-10
- 2.2 实体解析算法基础10
- 2.3 结构化数据实体解析算法10-28
- 2.4 本章小结28-29
- 第三章 网络产品解析29-48
- 3.1 引言29-30
- 3.2 WHIRL算法30-31
- 3.3 TMWM算法31-36
- 3.4 层次聚类算法36-43
- 3.5 算法评估43-47
- 3.6 本章小结47-48
- 第四章 综合相似度算法48-54
- 4.1 引言48-49
- 4.2 综合相似度算法49-52
- 4.3 算法评估52-53
- 4.4 本章小结53-54
- 第五章 算法的性能优化54-64
- 5.0 引言54
- 5.1 字符串预处理54-55
- 5.2 添加约束55-57
- 5.3 针对大数据的分块策略57-63
- 5.4 本章小结63-64
- 第六章 总结与展望64-65
- 致谢65-66
- 参考文献66-69
- 上海交通大学硕士学位论文答辩决议书69-71
【参考文献】
中国期刊全文数据库 前2条
1 刘骏豪;孙晶莹;;2011年德国人口普查中的新技术——记录链接[J];中国统计;2011年11期
2 王颖颖;黄杜英;许多顶;;向量空间中基于隐私保护的记录链接协议[J];现代电子技术;2009年14期
本文关键词:实体解析技术研究与应用,,由笔耕文化传播整理发布。
本文编号:351933
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/351933.html