当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向信息检索的自适应中文分词系统

发布时间:2018-12-10 11:08
【摘要】:新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和切分任意合理长度的词.它采用迭代式二元切分方法,对目标文档进行在线词频统计,使用离线词频词典或搜索引擎的倒排索引,筛选候选词并进行歧义消解.在统计模型的基础上,采用姓氏列表、量词表以及停词列表进行后处理,进一步提高了准确度.通过与著名的ICTCLAS分词系统针对新闻和论文进行对比评测,表明BUAASEISEG在新词识别和歧义消解方面有明显的优势.
[Abstract]:The recognition of new words and the resolution of ambiguity are important factors affecting the accuracy of information retrieval system. An adaptive Chinese word segmentation algorithm based on statistical model and oriented to information retrieval is proposed. Based on this algorithm, a new word segmentation system BUAASEISEG. is designed and implemented. It can recognize all kinds of new words in any field, but also can disambiguate and divide words of any reasonable length. It uses iterative binary segmentation method to calculate the online word frequency of the target document and uses the inverted index of off-line word frequency dictionary or search engine to filter candidate words and resolve ambiguity. On the basis of the statistical model, the last name list, classifier table and stop word list are adopted to further improve the accuracy. By comparing with the famous ICTCLAS word segmentation system for news and papers, it shows that BUAASEISEG has obvious advantages in neologism recognition and ambiguity resolution.
【作者单位】: 北京航空航天大学计算机学院 北京航空航天大学计算机学院 北京航空航天大学计算机学院 北京航空航天大学计算机学院
【基金】:国家高技术研究发展计划(863)~~
【分类号】:TP391.1

【参考文献】

相关期刊论文 前1条

1 张华平,刘群;基于N-最短路径方法的中文词语粗分模型[J];中文信息学报;2002年05期

【共引文献】

相关期刊论文 前10条

1 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期

2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期

3 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期

4 蔡勇智;基于最大匹配分词算法的中文词语粗分模型[J];福建电脑;2005年09期

5 王锡江;王启祥;陈家骏;;基于邻接知识的汉语自动分词系统[J];计算机研究与发展;1992年11期

6 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期

7 殷峰,何克抗;语句级拼音┐汉字转换系统的设计与实现[J];计算机研究与发展;1997年05期

8 陈其晖,应志伟,柴佩琪;基于歧义二叉树的汉语分词方法[J];计算机辅助工程;1999年04期

9 李文翔,晏蒲柳,张滨,夏德麟;基于语料库的关联词识别方法[J];计算机工程与应用;2004年07期

10 张素娟,郑庆华,胡云华,孙霞;一种面向网络答疑的汉语切分歧义消除算法[J];计算机工程与应用;2004年25期

相关会议论文 前10条

1 邓攀;刘功申;;基于标引信息的网络新概念发现算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年

2 孙茂松;;汉语自动分词研究的若干最新进展——清华大学相关工作简介[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年

3 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年

4 董强;郝长伶;董振东;;基于《知网》的中文语块抽取器[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

5 李斌;;中文单字国名简称的自动识别[A];第二届全国学生计算语言学研讨会论文集[C];2004年

6 李斌;陈小荷;方芳;徐艳华;;高频最大交集型歧义字段问题研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

7 林小俊;田浩;王馨浩;杜蕴璇;许敏;吴玺宏;迟惠生;;语言模型训练语料处理方法及解码词典的设计[A];第八届全国人机语音通讯学术会议论文集[C];2005年

8 孙承杰;黄昌宁;关毅;;基于标注语料库的组合歧义检测与消解[A];第三届学生计算语言学研讨会论文集[C];2006年

9 何中军;刘群;林守勋;;统计机器翻译中短语切分的新方法[A];第三届学生计算语言学研讨会论文集[C];2006年

10 陈晓苏;邹园斌;张文珂;;全切分图与路径表达式在分词算法中的应用[A];第三届学生计算语言学研讨会论文集[C];2006年

相关博士学位论文 前10条

1 郑泽芝;基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D];北京语言大学;2005年

2 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年

3 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年

4 贺前华;汉语自动分词及机器翻译研究[D];华南理工大学;1993年

5 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年

6 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年

7 张亮;面向开放域的中文问答系统问句处理相关技术研究[D];南京理工大学;2006年

8 张华平;语言浅层分析与句子级新信息检测研究[D];中国科学院研究生院(计算技术研究所);2005年

9 郭永辉;英汉机器翻译系统关键技术研究[D];解放军信息工程大学;2006年

10 赵小兵;基于动态流通语料库的现代汉语基本词汇自动识别与提取方法研究[D];北京语言大学;2007年

相关硕士学位论文 前10条

1 李晓丹;限定领域内基于web的智能问答系统[D];内蒙古大学;2005年

2 袁亮;一个基于WEB的信息组织与检索模型(WIORS)研究[D];武汉大学;2005年

3 何燕;任意类型的未登录词的识别研究[D];北京语言文化大学;2000年

4 娄(王廷);现代汉语分词系统通用性设计及切分歧义处理[D];北京工业大学;2000年

5 黄艳;面向数字化产品的自然语言查询技术的研究与开发[D];浙江大学;2002年

6 缪晓阳;WebCM:一种基于搜索引擎的网络内容监控系统的研究[D];浙江大学;2002年

7 廉竹钧;汉语组合型切分歧义字段消歧方法研究[D];北京语言文化大学;2002年

8 马东坡;Internet中文智能搜索引擎汉语自动分词系统设计[D];广西师范大学;2002年

9 胡蓉;中文Web文档倾向性自动分类研究[D];四川大学;2003年

10 刘建舟;术语自动抽取系统的设计及关键技术研究[D];华中师范大学;2004年

【二级参考文献】

相关期刊论文 前1条

1 周强;规则和统计相结合的汉语词类标注方法[J];中文信息学报;1995年03期

【相似文献】

相关期刊论文 前10条

1 李学俊;;基于分词算法&VSM的文本主观题自动评分算法研究[J];电脑知识与技术;2011年25期

2 史晓东;卢亚军;;央金藏文分词系统[J];中文信息学报;2011年04期

3 申兵一;巩青歌;;中文分词技术在搜索引擎中的应用研究[J];计算机与网络;2010年01期

4 周拴龙;;Lucene.net中文分词算法分析[J];郑州大学学报(理学版);2011年03期

5 高东平;;基于类型论的汉语分词系统TTCS[J];重庆理工大学学报(社会科学);2011年08期

6 赵珂;逯鹏;李永强;;基于Lucene的搜索引擎设计与实现[J];计算机工程;2011年16期

7 刘新生;厉锟;;基于BP神经网络的旅游突发事件文本分类系统的设计与实现[J];计算机与现代化;2011年07期

8 达吾勒·阿布都哈依尔;海拉提·克孜尔别克;;基于规则的哈萨克语词干提取算法的研究[J];新疆大学学报(自然科学版);2011年02期

9 刘兴林;郑启伦;马千里;;中文合成词识别及分词修正[J];计算机应用研究;2011年08期

10 陈国华;汤庸;彭泽武;李建国;;基于学术社区的学术搜索引擎设计[J];计算机科学;2011年08期

相关会议论文 前10条

1 孙茂松;;分词国际标准中的核心概念体系[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

2 王兰成;田梅;侯双;;PLS:一种基于信息自动标引的最小推进分词算法及其实现[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

3 杜超华;沈威;姚双云;;基于复句语料库的分词系统的研究[A];第三届学生计算语言学研讨会论文集[C];2006年

4 黄居仁;;瓶颈,挑战,与转机:中文分词研究的新思维[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

5 苏亮;孙斌;;一种基于Lucene的Hash改进中文分词算法的实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年

6 何赛克;王小捷;董远;张韬政;白雪;;归一化的邻接类别方法在基于条件随机场的中文分词中的应用[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

7 黄昌宁;赵海;;由字构词——中文分词新方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

8 李寿山;黄居仁;;基于词边界分类的中文分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

9 王屹林;朱慕华;朱靖波;;针对SVM中文分词特性的个性化后处理设计[A];第三届学生计算语言学研讨会论文集[C];2006年

10 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年

相关博士学位论文 前6条

1 张京楣;基于统计方法的文本风格分析研究[D];山东大学;2012年

2 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年

3 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年

4 黄魏;植物营养诊断自动应答网络专家系统研究[D];华中农业大学;2007年

5 李志国;面向分布式文本知识管理的中文分词与文本分类研究[D];重庆大学;2008年

6 田学东;光学公式识别技术研究[D];河北大学;2007年

相关硕士学位论文 前10条

1 林冬盛;中文分词算法的研究与实现[D];西北大学;2011年

2 刁毓;基于本体的中文分词算法的研究与实现[D];曲阜师范大学;2012年

3 朱世猛;中文分词算法的研究与实现[D];电子科技大学;2011年

4 韩雪冬;基于CRFs的中文分词算法研究与实现[D];北京邮电大学;2010年

5 王凯;中文分词算法在工程建设材料搜索中的研究与应用[D];大连交通大学;2010年

6 马东;基于Nutch搜索引擎的中文分词算法研究与实现[D];内蒙古农业大学;2011年

7 张小欢;中文分词系统的设计和实现[D];电子科技大学;2010年

8 刘延吉;基于词典的中文分词歧义算法研究[D];东北师范大学;2009年

9 付敏;一个改进的中文分词算法及其在Lucene中的应用[D];华中科技大学;2010年

10 贺艳艳;基于词表结构的中文分词算法研究[D];中国地质大学(北京);2007年



本文编号:2370467

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2370467.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3807a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com