基于双哈希词典机制中文分词的研究
本文关键词:基于双哈希词典机制中文分词的研究
【摘要】:汉语词典机制很大程度上影响中文分词的效率。为了提高现有基于词典的分词机制的查询效率,在双哈希词典机制和整词二分法相结合的基础上提出了一种有效的中文分词词典机制——双哈希编码分词词典机制。首字采用散列表保存,剩余字符逐个拼接计算其编码后放入余词散列表中,并加入状态值来减少匹配次数。实验结果表明该分词机制节省了内存空间和提高了匹配速度,方便词典更新与维护。
【作者单位】: 江苏科技大学计算机科学与工程学院;
【关键词】: 中文分词 词典机制 双哈希
【分类号】:TP391.1
【正文快照】: 0引言汉语自动分词的基本算法主要分为两大类:基于词典的分词方法和基于频率统计的分词方法[1]。基于词典分词是通过匹配已存在的中文词典进行语句切分,此方法包括3种基本算法:正向最大匹配法、逆向最大匹配法和全切分法。无论何种算法都是以中文词典为基础,词典的查询速度直
【相似文献】
中国期刊全文数据库 前10条
1 张茂元,卢正鼎,邹春燕;一种基于语境的中文分词方法研究[J];小型微型计算机系统;2005年01期
2 程传鹏;;一种简单高效的中文分词方法[J];郑州轻工业学院学报;2006年03期
3 张博;姜建国;万平国;;对互联网环境下中文分词系统的一种架构改进[J];计算机应用研究;2006年11期
4 夏新松;肖建国;;一种新的错误驱动学习方法在中文分词中的应用[J];计算机科学;2006年03期
5 周军;王艳红;;一种基于词典的中文分词法的设计与实现[J];黑龙江科技信息;2008年25期
6 许高建;胡学钢;路遥;王庆人;;一种改进的中文分词歧义消除算法研究[J];合肥工业大学学报(自然科学版);2008年10期
7 张培颖;;运用有向图进行中文分词研究[J];计算机工程与应用;2009年22期
8 吴晶晶;荆继武;聂晓峰;王平建;;一种快速中文分词词典机制[J];中国科学院研究生院学报;2009年05期
9 袁健;张劲松;马良;;二次回溯中文分词方法[J];计算机应用研究;2009年09期
10 刘智文;;利用系统整合提高中文分词精度的方法研究[J];现代计算机(专业版);2009年10期
中国重要会议论文全文数据库 前10条
1 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
2 黄昌宁;赵海;;由字构词——中文分词新方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 任飞亮;石磊;姚天顺;;应用支持向量机进行中文分词[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 吴晶晶;荆继武;王平建;;一种基于词典的新型中文分词机制[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
5 李玉梅;靳光瑾;黄昌宁;;中文分词规范中的歧义字段消解细则[A];第五届全国语言文字应用学术研讨会论文集[C];2007年
6 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 黄居仁;;瓶颈,挑战,与转机:中文分词研究的新思维[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
8 李寿山;黄居仁;;基于词边界分类的中文分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
9 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
10 王屹林;朱慕华;朱靖波;;针对SVM中文分词特性的个性化后处理设计[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前4条
1 奚宁;统计机器翻译中的中文分词策略研究[D];南京大学;2013年
2 修驰;适应于不同领域的中文分词方法研究与实现[D];北京工业大学;2013年
3 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
4 李志国;面向分布式文本知识管理的中文分词与文本分类研究[D];重庆大学;2008年
中国硕士学位论文全文数据库 前10条
1 朱云杰;大数据环境下垃圾评论过滤系统的研究与实现[D];东南大学;2015年
2 吕先超;视障汉语转换软件SunBraille的设计实现[D];兰州大学;2016年
3 黄积杨;基于双向LSTMN神经网络的中文分词研究分析[D];南京大学;2016年
4 王荔;统计全切分中文分词系统的研究与实现[D];西安电子科技大学;2009年
5 黄翼彪;开源中文分词器的比较研究[D];郑州大学;2013年
6 许华婷;基于Active Learning的中文分词领域自适应方法的研究[D];北京交通大学;2015年
7 周祺;基于统计与词典相结合的中文分词的研究与实现[D];哈尔滨工业大学;2015年
8 曹卫峰;中文分词关键技术研究[D];南京理工大学;2009年
9 许顺;中文分词规范可计算化的研究与实现[D];苏州大学;2006年
10 魏博诚;中文分词交集型歧义处理研究[D];安徽大学;2011年
,本文编号:911178
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/911178.html