应用于WMD的相似语义检索加速算法
发布时间:2022-01-09 03:49
为了提高Word Mover’s Distance(WMD)算法在大量样本数据中的语义相似性检索响应速度,结合KNN-Search的算法思想,提出了一种应用于WMD的相似语义检索加速算法。通过引入参考点对数据集进行线下预排序,并利用参考点与输入的WMD距离关系划定线上检索样本的范围,以避免在整个样本集中逐句计算与输入句的WMD距离,优化了检索策略;同时设计了两个可调参数以折中算法的效率和精度。实验结果表明,该算法可在保证一定精度的前提下,大幅提高线上检索的响应速度,增强WMD在工业应用上的实用性。
【文章来源】:电子设计工程. 2020,28(17)
【文章页数】:5 页
【部分图文】:
样本集空间划分
第2步,对于输入句A,计算yA?=WMD(A,?),根据yA?的大小判定A落在哪个圆环区域,取这个环内所有样本逐个与A计算WMD,值最小的样本,姑且先作为与A最相似的句子,设为δ,记yAδ=WMD(A,δ)。如图2左边所示,输入A经过WMD(A,?)映射落进2环内,则A只需与2环中的点计算WMD,找出环内与A最相似的样本作为δ。第3步,步骤2仅在圆环内寻找相似点,但可能全局最优点并不在这个环内,如图2右边所示,Ω点才为所求。因此,要同KD-Tree一样,采用“回退”思想找全局最优。以A为圆心,yAδ为半径形成圆RA,若圆内无其他样本,则δ为全局最优;若圆内还有其他点,计算圆RA内的各点与A的WMD距离,值最小的点Ω即为全局最优。
本文编号:3577895
【文章来源】:电子设计工程. 2020,28(17)
【文章页数】:5 页
【部分图文】:
样本集空间划分
第2步,对于输入句A,计算yA?=WMD(A,?),根据yA?的大小判定A落在哪个圆环区域,取这个环内所有样本逐个与A计算WMD,值最小的样本,姑且先作为与A最相似的句子,设为δ,记yAδ=WMD(A,δ)。如图2左边所示,输入A经过WMD(A,?)映射落进2环内,则A只需与2环中的点计算WMD,找出环内与A最相似的样本作为δ。第3步,步骤2仅在圆环内寻找相似点,但可能全局最优点并不在这个环内,如图2右边所示,Ω点才为所求。因此,要同KD-Tree一样,采用“回退”思想找全局最优。以A为圆心,yAδ为半径形成圆RA,若圆内无其他样本,则δ为全局最优;若圆内还有其他点,计算圆RA内的各点与A的WMD距离,值最小的点Ω即为全局最优。
本文编号:3577895
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3577895.html