一种自适应字长的中文词库的构建方法
发布时间:2018-02-05 00:01
本文关键词: 异或算法 Hash函数 中文词库 自适应字长 出处:《计算机研究与发展》2011年S1期 论文类型:期刊论文
【摘要】:中文搜索引擎中的词库是提高文本信息存储与查找效率的关键.以异或Hash算法为基础,根据对不同字长词出现概率的统计结果,利用词条的机内编码和汉字笔画数,把不同字长的词散列到不同的Hash值区间.实验结果表明该算法可以将Hash值的冲突率降低到0.327‰,该方法可用于计算机语料库建设和中文输入法等自然语言处理过程.
[Abstract]:The lexicon in Chinese search engine is the key to improve the efficiency of text information storage and search. Based on the XOR or Hash algorithm, according to the statistical results of the occurrence probability of different word length words. By using the in-machine coding of entries and the number of strokes in Chinese characters, different word lengths are hashed to different intervals of Hash values. The experimental results show that the collision rate of Hash values can be reduced to 0.327 鈥,
本文编号:1491533
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1491533.html