基于多索引的实时实体解析与关键词查询处理
发布时间:2021-01-27 13:50
传统的关键词Top-N查询技术大多基于干净数据集,难以直接用于脏数据集。脏数据集中可能存在大量包含拼写错误、空值或重复的记录,直接查询难以得到可靠的结果,从而影响后续决策分析的准确性甚至得到错误的结论。传统实体解析技术识别与合并脏数据集中的重复记录,从而得到一个干净数据集,但是其耗时大且难以直接与查询算法相结合,所以有必要研究实时实体解析技术并且设计有效的分块索引和算法,使其可以在亚秒级时间内完成一条记录的解析。针对包含重复、拼写错误或空值等类型的脏数据,本文研究实时实体解析和关键词Top-N查询技术。本文的主要工作包括:(1)针对数据集中的多个属性建立多个索引,每个索引根据相应属性值的特征使用不同的索引结构,包括哈希索引、跳跃表索引以及B+树索引等,用来对数据集进行划分。基于多个索引构成全局索引来协同检索候选元组。(2)设计基于多索引的实时实体解析相应的排序函数与算法。排序函数以编辑距离为基础,利用元组间相同属性值的数目以及属性值长度等因素来判断两元组是否指向同一实体。所设计的算法通过对数据集进行分块,减少候选元组的数目,从而提高实体解析效率。同时避免不必要的计...
【文章来源】:河北大学河北省
【文章页数】:95 页
【学位级别】:硕士
【部分图文】:
距离矩阵初始化过程
河北大学硕士学位论文12(4)A与B均不为空字符串,且A与B最后一位不同,那么其编辑距离为min(d[|A|-1][|B|]+1,d[|A|][|B|-1]+1,d[|A|-1][|B|-1]+1)。由以上分析可以得到动态规划方程,如下所示:[][]={(,),(,)=0([1][]+1,[][1]+1,[1][1]+),其他(2.4)当字符串A中的第i个字符与字符串B中的第j个字符不同时,flag取值为1;否则,flag取0值。以计算字符串“ppt”与“cpp”为例,其计算过程如下:(1)首先,初始化距离矩阵d[][],对所有满足min(i,j)=0条件的位置赋予初始值max(i,j),如下图所示:(a)原始距离矩阵(b)初始化后的距离矩阵图2-1距离矩阵初始化过程(2)随后,按照min(d[i-1][j]+1,d[i][j-1]+1,d[i-1][j-1]+flag)推导出矩阵其他位置的值,流程如下所示:图2-2通过距离矩阵计算编辑距离的过程(3)最后,根据矩阵即可得出字符串“ppt”与“cpp”的编辑距离为d[3][3]=2。
【参考文献】:
期刊论文
[1]情境相关的室内空间群组Top-k查询[J]. 李敬雯,卢明许,刘彬彬. 计算技术与自动化. 2019(04)
[2]时间约束的实体解析中记录对排序研究[J]. 孙琛琛,申德荣,李玉坤,肖迎元,马建红. 软件学报. 2020(03)
[3]Hash索引算法综述[J]. 颜文,陈征. 无线通信技术. 2019(02)
[4]实体解析中基于相似性传递的增量分组研究[J]. 高广尚. 系统工程理论与实践. 2019(05)
[5]关于实体解析基本方法的研究和述评[J]. 高广尚. 数据分析与知识发现. 2019(05)
[6]大规模图上的SimRank计算研究综述[J]. 张良富,李翠平,陈红. 计算机学报. 2019(12)
[7]基于关键字密度的XML关键字检索[J]. 覃遵跃,汤庸,徐洪智,黄云. 软件学报. 2019(04)
[8]文本相似度计算方法研究综述[J]. 王春柳,杨永辉,邓霏,赖辉源. 情报科学. 2019(03)
[9]WDS:基于词向量的文本相似函数[J]. 王路琪,龙军,袁鑫攀. 计算机科学. 2018(S2)
[10]面向实体解析的无监督聚类方法综述[J]. 高广尚. 计算机工程与应用. 2018(07)
硕士论文
[1]基于实时实体解析的关键词查询处理[D]. 杜旭.河北大学 2018
本文编号:3003157
【文章来源】:河北大学河北省
【文章页数】:95 页
【学位级别】:硕士
【部分图文】:
距离矩阵初始化过程
河北大学硕士学位论文12(4)A与B均不为空字符串,且A与B最后一位不同,那么其编辑距离为min(d[|A|-1][|B|]+1,d[|A|][|B|-1]+1,d[|A|-1][|B|-1]+1)。由以上分析可以得到动态规划方程,如下所示:[][]={(,),(,)=0([1][]+1,[][1]+1,[1][1]+),其他(2.4)当字符串A中的第i个字符与字符串B中的第j个字符不同时,flag取值为1;否则,flag取0值。以计算字符串“ppt”与“cpp”为例,其计算过程如下:(1)首先,初始化距离矩阵d[][],对所有满足min(i,j)=0条件的位置赋予初始值max(i,j),如下图所示:(a)原始距离矩阵(b)初始化后的距离矩阵图2-1距离矩阵初始化过程(2)随后,按照min(d[i-1][j]+1,d[i][j-1]+1,d[i-1][j-1]+flag)推导出矩阵其他位置的值,流程如下所示:图2-2通过距离矩阵计算编辑距离的过程(3)最后,根据矩阵即可得出字符串“ppt”与“cpp”的编辑距离为d[3][3]=2。
【参考文献】:
期刊论文
[1]情境相关的室内空间群组Top-k查询[J]. 李敬雯,卢明许,刘彬彬. 计算技术与自动化. 2019(04)
[2]时间约束的实体解析中记录对排序研究[J]. 孙琛琛,申德荣,李玉坤,肖迎元,马建红. 软件学报. 2020(03)
[3]Hash索引算法综述[J]. 颜文,陈征. 无线通信技术. 2019(02)
[4]实体解析中基于相似性传递的增量分组研究[J]. 高广尚. 系统工程理论与实践. 2019(05)
[5]关于实体解析基本方法的研究和述评[J]. 高广尚. 数据分析与知识发现. 2019(05)
[6]大规模图上的SimRank计算研究综述[J]. 张良富,李翠平,陈红. 计算机学报. 2019(12)
[7]基于关键字密度的XML关键字检索[J]. 覃遵跃,汤庸,徐洪智,黄云. 软件学报. 2019(04)
[8]文本相似度计算方法研究综述[J]. 王春柳,杨永辉,邓霏,赖辉源. 情报科学. 2019(03)
[9]WDS:基于词向量的文本相似函数[J]. 王路琪,龙军,袁鑫攀. 计算机科学. 2018(S2)
[10]面向实体解析的无监督聚类方法综述[J]. 高广尚. 计算机工程与应用. 2018(07)
硕士论文
[1]基于实时实体解析的关键词查询处理[D]. 杜旭.河北大学 2018
本文编号:3003157
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3003157.html
最近更新
教材专著