当前位置:主页 > 科技论文 > 搜索引擎论文 >

全二分最大匹配快速分词算法

发布时间:2018-10-24 13:23
【摘要】:分词对于中文信息处理的诸多领域都是一个非常重要的基本组成部分,对于诸如搜索引擎等海量信息处理的应用,分词的速度是至关重要的。该文在对中文编码体系和中文分词的算法进行研究的基础上,提出一种新的分词词典,基于这种分词设计了一种快速的分词算法,给出了算法的实现过程。
[Abstract]:Word segmentation is a very important basic component in many fields of Chinese information processing, and the speed of word segmentation is very important for the applications of mass information processing such as search engines. Based on the research of Chinese coding system and Chinese word segmentation algorithm, a new word segmentation dictionary is proposed in this paper. A fast word segmentation algorithm is designed and the implementation process of the algorithm is given.
【作者单位】: 北京航空航天大学机械工程及自动化学院 中国科学院计算技术研究所 中国科学院计算技术研究所 北京航空航天大学机械工程及自动化学院
【分类号】:TP391.1

【参考文献】

相关期刊论文 前5条

1 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期

2 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期

3 孙茂松,左正平,黄昌宁;汉语自动分词词典机制的实验研究[J];中文信息学报;2000年01期

4 何克抗,徐辉,孙波;书面汉语自动分词专家系统设计原理[J];中文信息学报;1991年02期

5 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期

【共引文献】

相关期刊论文 前10条

1 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期

2 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期

3 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期

4 简幼良,黄德根;中日英兼容汉字操作系统NiHao-FP的设计与实现[J];大连理工大学学报;1992年05期

5 黄德根,朱和合,王昆仑,杨元生,钟万勰;基于最长次长匹配的汉语自动分词[J];大连理工大学学报;1999年06期

6 于源,衣袭;中文全切分快速分词方法[J];大连铁道学院学报;2005年02期

7 蔡勇智;基于最大匹配分词算法的中文词语粗分模型[J];福建电脑;2005年09期

8 陈桂林,王永成;Internet网络信息自动摘要的研究[J];高技术通讯;1999年02期

9 刘晓英;汉语自动分词研究的发展趋势[J];高校图书馆工作;2005年04期

10 刘挺,吴岩,王开铸;最大概率分词问题及其解法[J];哈尔滨工业大学学报;1998年06期

相关会议论文 前10条

1 贺前华;徐秉铮;;神经网络在汉语自动分词中的应用[A];第二届全国人机语音通讯学术会议论文集[C];1992年

2 吴晶晶;荆继武;王平建;;一种基于词典的新型中文分词机制[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年

3 朱晓丹;刁倩;周富秋;;汉语词语的两字hash算法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年

4 陈玉忠;李保利;俞士汶;兰措吉;;基于格助词和接续特征的藏文自动分词方案[A];第一届学生计算语言学研讨会论文集[C];2002年

5 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

6 杨尔弘;方莹;乔羽;;汉语自动分词和词性标注评测[A];第二届全国学生计算语言学研讨会论文集[C];2004年

7 李江波;周强;陈祖舜;;汉语词典快速查询算法研究[A];第二届全国学生计算语言学研讨会论文集[C];2004年

8 杨超;李仁发;蒋斌;;一种高效的汉语自动分词词典机制[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

9 李江波;周强;陈祖舜;;汉语词典的快速查询算法研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

10 朱鉴;张建;李淼;强静;杨攀;;面向民族语言信息处理的汉语分词方法[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

相关博士学位论文 前10条

1 王兰成;基于XMARC信息描述的知识标引与概念检索研究[D];东华大学;2004年

2 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年

3 贺前华;汉语自动分词及机器翻译研究[D];华南理工大学;1993年

4 李晓光;XML非完全结构查询处理中若干关键技术的研究[D];东北大学;2006年

5 宗成庆;音字转换与句子规范化处理研究[D];中国科学院研究生院(计算技术研究所);1998年

6 张大军;汉语文语转换系统HJ-TTS关键技术的研究与实现[D];中国科学院研究生院(计算技术研究所);2000年

7 张春霞;领域文本知识获取方法研究及其在考古领域中的应用[D];中国科学院研究生院(计算技术研究所);2005年

8 张鹏洲;文语转换系统研究与应用[D];中国科学院研究生院(计算技术研究所);1999年

9 刘少辉;知识发现中粗糙集理论的研究[D];中国科学院研究生院(计算技术研究所);2003年

10 张磊;个性化信息分发及概念检索的研究[D];中国科学院研究生院(计算技术研究所);2002年

相关硕士学位论文 前10条

1 李卫红;一种新的并发分词算法的研究与实现[D];山东大学;2005年

2 陈宣荣;[D];电子科技大学;2003年

3 何燕;任意类型的未登录词的识别研究[D];北京语言文化大学;2000年

4 王省;基地统计和规则的中文姓名识别系统的研制[D];大连理工大学;2000年

5 娄(王廷);现代汉语分词系统通用性设计及切分歧义处理[D];北京工业大学;2000年

6 李朝阳;经济文献数据库计算机标引研究[D];南京农业大学;2000年

7 刘向辉;专题性智能搜索引擎的研究与实现[D];昆明理工大学;2001年

8 吴雪敏;汉语语句的计算机分析[D];电子科技大学;2001年

9 陈红英;Internet信息过滤Agent的研究和实现[D];广东工业大学;2002年

10 罗智勇;现代汉语通用分词系统的技术与实现[D];北京工业大学;2002年

【二级参考文献】

相关期刊论文 前10条

1 陈桂林,王永成,韩客松,王刚;一种高效的中文电子词表数据结构[J];计算机研究与发展;2000年01期

2 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期

3 梁南元;书面汉语自动分词综述[J];计算机应用与软件;1987年03期

4 李国臣,刘开瑛,张永奎;汉语自动分词及歧义组合结构的处理[J];中文信息学报;1988年03期

5 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期

6 梁南元;汉语计算机自动分词知识[J];中文信息学报;1990年02期

7 徐秉铮,詹剑,贺前华;基于神经网络的分词方法[J];中文信息学报;1993年02期

8 骆正清,陈增武,胡上序;一种改进的MM分词方法的算法设计[J];中文信息学报;1996年03期

9 郭祥昊,钟义信,杨丽;基于两字词簇的汉语快速自动分词算法[J];情报学报;1998年05期

10 孙茂松,,邹嘉彦;汉语自动分词研究中的苦干理论问题[J];语言文字应用;1995年04期

【相似文献】

相关期刊论文 前10条

1 李振星,徐泽平,唐卫清,唐荣锡;全二分最大匹配快速分词算法[J];计算机工程与应用;2002年11期

2 赵志靖,周静,冯锐,齐丙辰;智能人机交互中自动分词技术的实现[J];扬州大学学报(自然科学版);2005年03期

3 何国斌;赵晶璐;;汉语文本自动分词算法的研究[J];计算机工程与应用;2010年03期

4 高洁羽,吕强,杨季文,钱培德;自动分词在输入法测试系统中的应用[J];电化教育研究;2003年02期

5 付海辰;;基于二字词检测位图表的MM自动分词算法[J];信息与电脑(理论版);2011年03期

6 黄水清;程冲;;基于既定词表的自适应汉语分词技术研究[J];现代图书情报技术;2006年05期

7 付海辰;;网页文本自动分词的有词典方法[J];华章;2011年05期

8 张贤;周娅;;多次Hash自动分词算法[J];微计算机信息;2009年24期

9 黄昌宁;自动分词[J];语言文字应用;1997年01期

10 曹焕光,郑家恒;自动分词软件质量的评价模型[J];中文信息学报;1992年04期

相关重要报纸文章 前1条

1 田梦;软件篇软件只是工具[N];计算机世界;2007年

相关博士学位论文 前2条

1 黄魏;植物营养诊断自动应答网络专家系统研究[D];华中农业大学;2007年

2 田学东;光学公式识别技术研究[D];河北大学;2007年

相关硕士学位论文 前10条

1 许荣荣;中文文本自动分词技术与算法研究[D];郑州大学;2010年

2 王凯;中文分词算法在工程建设材料搜索中的研究与应用[D];大连交通大学;2010年

3 林冬盛;中文分词算法的研究与实现[D];西北大学;2011年

4 范敏敏;企业经营范围字段自动分类方法研究[D];哈尔滨工业大学;2010年

5 付敏;一个改进的中文分词算法及其在Lucene中的应用[D];华中科技大学;2010年

6 朱世猛;中文分词算法的研究与实现[D];电子科技大学;2011年

7 韩雪冬;基于CRFs的中文分词算法研究与实现[D];北京邮电大学;2010年

8 李畅;智能问答系统在高中物理教学中的应用[D];陕西师范大学;2011年

9 马东;基于Nutch搜索引擎的中文分词算法研究与实现[D];内蒙古农业大学;2011年

10 孙博雅;中文分词算法在GIS中的应用研究[D];中南大学;2011年



本文编号:2291536

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2291536.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2fec9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com