当前位置:主页 > 社科论文 > 图书档案论文 >

信息检索用汉语分词与未登录词识别技术研究

发布时间:2020-11-04 08:49
   汉语分词是中文信息处理中最基础的部分。信息检索用汉语分词要求分词算法具备一定的歧义识别与未登录词识别功能。 本文深入研究了未登录词识别技术,根据人在阅读时识别新词的思维过程,提出了一种新的未登录词识别算法,其中的数量词识别规则、边界单字规则、虚字辅助规则、未登录词记忆识别规则以及左方探测法、右方探测法选取未登录词规则等,使得算法在不依赖大型语料库的前提下可以有效地识别多种领域中各种类型的未登录词。同时,算法通过对正向、逆向双向分词算法的结果进行比较,能识别出绝大部分的交集歧义,使得未登录词识别与切分歧义识别一体化,有效地解决了识别未登录词时导致的新的切分歧义问题。接着,本文改进了词表组织结构,改善了词表查询算法,在提高分词效率的同时也使得词表的囊括度更大、更新维护更加灵活。 在此基础上,针对信息检索领域的特点以及对分词算法的要求,本文提出了汉语自适应分词算法,并设计开发出了汉语分词基础模块carmmLib.d11以及汉语自适应分词系统Carmm。carmm用户可以定制词表,定制分词结果以及可以对词表、未登录词表等词表进行管理维护等。Carmm还具备很好的扩展性和可移植性。 最后,本文对Carmm与中科院的分词系统ICTCLAS开源版进行了全面测评,包括系统效能测评(系统基本性能测评、负荷测评、稳定性测评)、系统分词准确率测评、系统未登录词识别的准确率和召回率测评。在整个测评过程中,Carmm的分词速率可以稳定在100KB/s左右。在人民日报语料库的开放测评中,Carmm系统的分词准确率约为91.2%。在网络时文的开放测评中,Carmm系统的分词准确率约为90.1%,接近于ICTCLAS开源版的91.3%;未登录词识别的准确率约为91.2%,略低于ICTCLAS开源版的93.9%;而未登录词识别的召回率约为94.7%,明显高于ICTCLAS开源版的89.0%。与此同时,Carmm系统在分词速率、处理大量未登录词的速率稳定性、面对高负荷系统环境的健壮性、系统易用性、系统抗干扰性等方面都优于ICTCLAS系统开源版。
【学位单位】:南京农业大学
【学位级别】:硕士
【学位年份】:2007
【中图分类】:G354
【部分图文】:

人民日报,中词,语料库,分布信息


总词数/总词频 55630100882942100根据表3一1对1998年1月份人民日报语料库中词的统计数据,杨超等人得到该语料库中出现的词条数的分布信息如图3一3所示,词频数的分布信息如图3一4所示:四字及四字单字词以上词三字词19%二字词56%国国单字词 词...二字词 词口口三字词 词口口四字及四字以上词词图3一3人民日报语料库中词数的分布信息口三字词口四字及四目单字词.二字词字以上词田田单字词 词...二字词 词口口三字词 词口口四字及四字以上词词图3一4人民日报语料库中词频的分布信息以上统计数据表明,在汉语中,单字词与二字词占有绝大多数。因此快速判断单字词与二字词,对提高汉语分词效率起着至关重要的作用。由于在汉语自适应分词算法使用的是最长匹配法,以及识别的候选未登录词短语长度一般都大于2,所以词串查询大部分为二字长以上的字串在词表里进行局部查询。从上面的数据统计分

人民日报,中词,语料库,分布信息


总词数/总词频 55630100882942100根据表3一1对1998年1月份人民日报语料库中词的统计数据,杨超等人得到该语料库中出现的词条数的分布信息如图3一3所示,词频数的分布信息如图3一4所示:四字及四字单字词以上词三字词19%二字词56%国国单字词 词...二字词 词口口三字词 词口口四字及四字以上词词图3一3人民日报语料库中词数的分布信息口三字词口四字及四目单字词.二字词字以上词田田单字词 词...二字词 词口口三字词 词口口四字及四字以上词词图3一4人民日报语料库中词频的分布信息以上统计数据表明,在汉语中,单字词与二字词占有绝大多数。因此快速判断单字词与二字词,对提高汉语分词效率起着至关重要的作用。由于在汉语自适应分词算法使用的是最长匹配法,以及识别的候选未登录词短语长度一般都大于2,所以词串查询大部分为二字长以上的字串在词表里进行局部查询。从上面的数据统计分

主界面,分词算法,分词系统


图4--7Car.系统主界面图在分词之前,需要进行相关的基本配置:1)分词算法选择选择分词系统使用的算法,缺省为汉语自适应分词算法,也可以选择逆向最长或是正向最长分词算法。如下图:
【参考文献】

相关期刊论文 前10条

1 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期

2 王显芳,杜利民;一种能够检测所有交叉歧义的汉语分词算法[J];电子学报;2004年01期

3 卢微;;隐马尔可夫模型在自然语言理解研究中的应用[J];电脑与信息技术;2007年01期

4 冯素琴;陈惠明;;利用上下文信息解决汉语组合型歧义[J];电脑开发与应用;2007年01期

5 王秀坤,李政,简幼良,刘剑;基于Hash方法的机器翻译词典的组织与构造[J];大连理工大学学报;1996年03期

6 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期

7 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期

8 梁南元;汉语计算机自动分词知识[J];中文信息学报;1990年02期

9 孙茂松,左正平,黄昌宁;汉语自动分词词典机制的实验研究[J];中文信息学报;2000年01期

10 沈达阳,孙茂松,黄昌宁;汉语分词系统中的信息集成和最佳路径搜索方法[J];中文信息学报;1997年02期


相关硕士学位论文 前2条

1 张俊;基于内容的汉语文献信息检索系统的设计与实现[D];南京农业大学;2006年

2 何燕;任意类型的未登录词的识别研究[D];北京语言文化大学;2000年



本文编号:2869897

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/2869897.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户84307***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com