一种基于汉字笔顺特征的关键词变体匹配方法
发布时间:2024-03-23 14:10
近年来,垃圾短消息呈现出包含大量拆分字和形近字的现象,这种短消息可以绕过监控系统的关键词审查。由于拆分字和形近字数量众多,变化灵活,将其全部加入关键词库将令关键词库变得冗余。对此,本文提出了一种基于汉字笔顺特征的关键词变体匹配方法。基于汉字笔顺特征,首先合并垃圾短消息中的拆分字;然后通过建立索引表,快速查找出短消息中包含的疑似关键词;最后提出了"金字塔匹配法"匹配关键词。本文提出的方法有效降低了关键词库的冗余度,提高了关键词匹配效率。
【文章页数】:5 页
【部分图文】:
本文编号:3936026
【文章页数】:5 页
【部分图文】:
图1原始短消息处理流程图
如图1所示,本文提出的关键词变体匹配方法主要包括两个子过程:合并短消息中包含的拆分字和关键词变体匹配。2.1合并拆分字
图2左中右拆分字合并示意图
如图2所示,以短消息“金月月鸟娱乐城”为例,展示了左中右结构拆分字的检测与合并过程。由于是左中右结构,故参与合并的汉字有3个。图中左侧使用长度为3的滑动窗口穷举了短消息中任意3个相邻汉字组合的可能,其中每一行是一种组合的可能性。针对每一行,都需要检测窗口中的3个汉字是否能够合并成....
图3“王古月”和“瑚”的笔顺对比示意图
如图4所示,首先将汉字常用的28个笔画用01~28进行编号,建立汉字笔画编号表;然后以每个关键词包含的关键字作为索引,关键词id作为值建立一个索引表,通过此索引表能够快速得到每个关键词由哪些关键字组成,如查询关键字“炸”,则能够快速得到关键词库中包含“炸”的关键词为“炸金花”和“....
图5形近字匹配及金字塔匹配法示意图
图4关键词库、按字索引关键词、按头4笔或末4笔索引形近字示意图(3)根据疑似形近字id得到包含这些疑似形近字的关键词id。如根据id为1和4疑似形近字得到id为1、3和2的疑似匹配关键词。“来”和“玩”未查询到疑似形近字,则其疑似形近字记为“无”,相应的,疑似匹配关键词记为“无....
本文编号:3936026
本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/3936026.html