信息检索用汉语分词与未登录词识别技术研究

发布时间：2020-11-04 08:49

　　汉语分词是中文信息处理中最基础的部分。信息检索用汉语分词要求分词算法具备一定的歧义识别与未登录词识别功能。本文深入研究了未登录词识别技术，根据人在阅读时识别新词的思维过程，提出了一种新的未登录词识别算法，其中的数量词识别规则、边界单字规则、虚字辅助规则、未登录词记忆识别规则以及左方探测法、右方探测法选取未登录词规则等，使得算法在不依赖大型语料库的前提下可以有效地识别多种领域中各种类型的未登录词。同时，算法通过对正向、逆向双向分词算法的结果进行比较，能识别出绝大部分的交集歧义，使得未登录词识别与切分歧义识别一体化，有效地解决了识别未登录词时导致的新的切分歧义问题。接着，本文改进了词表组织结构，改善了词表查询算法，在提高分词效率的同时也使得词表的囊括度更大、更新维护更加灵活。在此基础上，针对信息检索领域的特点以及对分词算法的要求，本文提出了汉语自适应分词算法，并设计开发出了汉语分词基础模块carmmLib．d11以及汉语自适应分词系统Carmm。carmm用户可以定制词表，定制分词结果以及可以对词表、未登录词表等词表进行管理维护等。Carmm还具备很好的扩展性和可移植性。最后，本文对Carmm与中科院的分词系统ICTCLAS开源版进行了全面测评，包括系统效能测评(系统基本性能测评、负荷测评、稳定性测评)、系统分词准确率测评、系统未登录词识别的准确率和召回率测评。在整个测评过程中，Carmm的分词速率可以稳定在100KB／s左右。在人民日报语料库的开放测评中，Carmm系统的分词准确率约为91.2％。在网络时文的开放测评中，Carmm系统的分词准确率约为90.1％，接近于ICTCLAS开源版的91.3％；未登录词识别的准确率约为91.2％，略低于ICTCLAS开源版的93.9％；而未登录词识别的召回率约为94.7％，明显高于ICTCLAS开源版的89.0％。与此同时，Carmm系统在分词速率、处理大量未登录词的速率稳定性、面对高负荷系统环境的健壮性、系统易用性、系统抗干扰性等方面都优于ICTCLAS系统开源版。
【学位单位】：南京农业大学
【学位级别】：硕士
【学位年份】：2007
【中图分类】：G354
【部分图文】：

人民日报,中词,语料库,分布信息

总词数/总词频 55630100882942100根据表3一1对1998年1月份人民日报语料库中词的统计数据，杨超等人得到该语料库中出现的词条数的分布信息如图3一3所示，词频数的分布信息如图3一4所示:四字及四字单字词以上词三字词19%二字词56%国国单字词词...二字词词口口三字词词口口四字及四字以上词词图3一3人民日报语料库中词数的分布信息口三字词口四字及四目单字词.二字词字以上词田田单字词词...二字词词口口三字词词口口四字及四字以上词词图3一4人民日报语料库中词频的分布信息以上统计数据表明，在汉语中，单字词与二字词占有绝大多数。因此快速判断单字词与二字词，对提高汉语分词效率起着至关重要的作用。由于在汉语自适应分词算法使用的是最长匹配法，以及识别的候选未登录词短语长度一般都大于2，所以词串查询大部分为二字长以上的字串在词表里进行局部查询。从上面的数据统计分

人民日报,中词,语料库,分布信息