使用二级索引的中文分词词典
本文选题:中文分词 切入点:二级索引 出处:《计算机工程与应用》2009年19期
【摘要】:中文分词是中文信息处理的基础,在诸如搜索引擎,自动翻译等多个领域都有着非常重要的地位。中文分词词典是中文机械式分词算法的基础,它将告诉算法什么是词,由于在算法执行过程中需要反复利用分词词典的内容进行字符串匹配,所以中文分词词典的存储结构从很大程度上决定将采用什么匹配算法以及匹配算法的好坏。在研究现存分词词典及匹配算法的基础上,吸取前人的经验经过改进,为词典加上了多级索引,并由此提出了一种新的中文分词词典存储机制——基于二级索引的中文分词词典,并在该词典的基础上提出了基于正向匹配的改进型匹配算法,大大降低了匹配过程的时间复杂度。从而提高了整个中文分词算法的分词速度。
[Abstract]:Chinese word segmentation is the foundation of Chinese information processing and plays a very important role in many fields such as search engine, automatic translation and so on. Chinese word segmentation dictionary is the foundation of Chinese mechanical word segmentation algorithm, which will tell the algorithm what is a word. Because it is necessary to repeatedly use the contents of the word segmentation dictionary for string matching during the execution of the algorithm, Therefore, the storage structure of Chinese word segmentation dictionaries determines to a great extent what matching algorithms and matching algorithms will be used. On the basis of studying the existing word segmentation dictionaries and matching algorithms, the previous experience has been improved. The multi-level index is added to the dictionary, and a new Chinese word segmentation dictionary based on two-level index is proposed, and an improved matching algorithm based on forward matching is proposed. The time complexity of the matching process is greatly reduced and the word segmentation speed of the whole Chinese word segmentation algorithm is improved.
【作者单位】: 吉林大学计算机科学与技术系;
【分类号】:TP391.1
【参考文献】
相关期刊论文 前6条
1 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
2 李振星,徐泽平,唐卫清,唐荣锡;全二分最大匹配快速分词算法[J];计算机工程与应用;2002年11期
3 肖红;许少华;李欣;;具有三级索引词库结构的中文分词方法研究[J];计算机应用研究;2006年08期
4 张科;;多次Hash快速分词算法[J];计算机工程与设计;2007年07期
5 李庆虎,陈玉健,孙家广;一种中文分词词典新机制——双字哈希机制[J];中文信息学报;2003年04期
6 翟凤文;赫枫龄;左万利;;字典与统计相结合的中文分词方法[J];小型微型计算机系统;2006年09期
【共引文献】
相关期刊论文 前10条
1 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
2 于源,衣袭;中文全切分快速分词方法[J];大连铁道学院学报;2005年02期
3 蔡勇智;基于最大匹配分词算法的中文词语粗分模型[J];福建电脑;2005年09期
4 王一蕾;吴英杰;;基于数据量的文本分词算法选取的研究[J];福建电脑;2006年09期
5 苏芳仲,林世平;Web文本挖掘中的一种中文分词算法研究及其实现[J];福州大学学报(自然科学版);2004年S1期
6 刘晓英;汉语自动分词研究的发展趋势[J];高校图书馆工作;2005年04期
7 蒋斌;杨超;赵欢;;基于二字词位图表的汉语自动分词词典机制[J];湖南大学学报(自然科学版);2006年01期
8 马哲,姚敏;一种改进的基于PATRICIA树的汉语自动分词词典机制[J];华南理工大学学报(自然科学版);2004年S1期
9 林绮屏;基于词形的最佳路径分词算法[J];华南师范大学学报(自然科学版);2002年04期
10 李向阳,张亚非;一种Hash高速分词算法[J];解放军理工大学学报(自然科学版);2004年02期
相关会议论文 前1条
1 王虎;王潜平;;对整词二分自动分词机制的改进[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
相关博士学位论文 前4条
1 杨雨图;支持双语的协同CAPP系统若干关键技术研究[D];南京航空航天大学;2006年
2 刘少辉;知识发现中粗糙集理论的研究[D];中国科学院研究生院(计算技术研究所);2003年
3 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
4 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
相关硕士学位论文 前10条
1 陈红英;Internet信息过滤Agent的研究和实现[D];广东工业大学;2002年
2 冯元勇;智能搜索器的概念库设计及其文档评价策略[D];中南大学;2002年
3 贾建华;语音合成及语音处理[D];中南大学;2002年
4 李丽苹;教学电子信息资源管理研究[D];南京师范大学;2002年
5 高雷;网络智能过滤系统的设计与实现[D];广东工业大学;2003年
6 卢忠良;基于多类的汉语文本自动分类研究[D];中国人民解放军国防科学技术大学;2002年
7 于波;中文全文检索技术研究[D];华中师范大学;2003年
8 张俊艳;基于SVM有聚类指导的Web中文文本分类器的研究及其实现[D];福州大学;2004年
9 马国俊;潜在语义索引在中文文本聚类中的应用研究[D];西安建筑科技大学;2004年
10 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
【二级参考文献】
相关期刊论文 前10条
1 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
2 陈桂林,王永成,韩客松,王刚;一种高效的中文电子词表数据结构[J];计算机研究与发展;2000年01期
3 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
4 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期
5 张长利,赫枫龄,左万利;一种基于后缀数组的无词典分词方法[J];吉林大学学报(理学版);2004年04期
6 李振星,徐泽平,唐卫清,唐荣锡;全二分最大匹配快速分词算法[J];计算机工程与应用;2002年11期
7 谭琼,史忠植;分词中的歧义处理[J];计算机工程与应用;2002年11期
8 湛燕,陈昊,袁方,王熙照;基于中文文本分类的分词方法研究[J];计算机工程与应用;2003年23期
9 严威,赵政;开发中文搜索引擎汉语处理的关键技术[J];计算机工程;1999年06期
10 温滔,朱巧明,吕强;一种快速汉语分词算法[J];计算机工程;2004年19期
【相似文献】
相关期刊论文 前10条
1 张文慧;张冉;;基于中文分词的农业信息检索平台设计[J];安徽农业科学;2011年20期
2 杜娟;;Nutch中文分词的研究和改进[J];软件导刊;2011年06期
3 张旭;;构建基于本地服务的垂直搜索引擎[J];才智;2011年18期
4 韩月阳;邓世昆;贾时银;李远方;;基于字分类的中文分词的研究[J];计算机技术与发展;2011年07期
5 刘兆伟;黄永峰;;面向主题搜索引擎的实现与优化[J];数据通信;2011年04期
6 阴桂梅;郭广行;;智能答疑系统模型设计[J];电脑开发与应用;2011年07期
7 刘晓星;胡畅霞;;WEB中文本信息检索的关键技术研究[J];硅谷;2011年16期
8 杨春明;韩永国;;快速的领域文档关键词自动提取算法[J];计算机工程与设计;2011年06期
9 谷俊;王昊;;基于领域中文文本的术语抽取方法研究[J];现代图书情报技术;2011年04期
10 胡莉;;中文“词”的语言模型识别研究方法综述[J];北方文学(下半月);2011年03期
相关会议论文 前10条
1 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
2 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 向永清;邓志鸿;于航;高宁;;面向XML文档的二级索引技术及其在XML关键词检索中的应用研究[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
6 彭辉;翟翔;;AutoCAD 2008自动翻译软件研发[A];全国冶金自动化信息网2010年年会论文集[C];2010年
7 王屹林;朱慕华;朱靖波;;针对SVM中文分词特性的个性化后处理设计[A];第三届学生计算语言学研讨会论文集[C];2006年
8 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系统中的应用研究[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
9 刘东生;尹宝生;张桂平;徐立军;苗雪雷;;面向专利文献的中文分词技术的研究[A];第五届全国信息检索学术会议论文集[C];2009年
10 黄昌宁;赵海;;由字构词——中文分词新方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
相关重要报纸文章 前2条
1 记者 吴苡婷;用技术挖出网络信息中“金子”[N];上海科技报;2009年
2 高雪娟;企业搜索要为决策服务[N];中国计算机报;2006年
相关博士学位论文 前9条
1 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
2 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
3 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
4 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
5 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
6 任飞亮;高适应性基于实例的机器翻译中关键技术研究[D];东北大学;2008年
7 张京楣;基于统计方法的文本风格分析研究[D];山东大学;2012年
8 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
9 江锦华;XML小枝模式查询处理技术研究[D];浙江大学;2009年
相关硕士学位论文 前10条
1 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
2 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年
3 戚晶;基于RSS的搜索引擎的研究与实现[D];吉林大学;2006年
4 王圆;文本内容过滤的关键技术研究[D];东北师范大学;2006年
5 李东海;基于Nutch技术的主题搜索引擎实现[D];吉林大学;2008年
6 孟美华;桌面搜索引擎的设计与实现[D];大连理工大学;2009年
7 褚金正;面向特定领域的文本识别和分类[D];湖南大学;2005年
8 张晓淼;基于神经网络的中文分词算法的研究[D];大连理工大学;2006年
9 谢骋超;基于语义的数据库全文检索系统[D];浙江大学;2006年
10 陈默;基于神经网络的元搜索引擎[D];浙江大学;2006年
,本文编号:1688907
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1688907.html