当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于JAVA的小型中文分词系统

发布时间:2017-09-25 14:18

  本文关键词:基于JAVA的小型中文分词系统


  更多相关文章: 中文分词 词典 最大匹配 双哈希


【摘要】:互联网信息飞速增长,网络资源不断增加,于是搜索引擎应运而生,它的出现为我们在网络上搜集我们所需要的资源提供了很大的方便,但是人们并不满足于早期的搜索引擎的功能和速度,于是搜索引擎开始不断地被更新和完善,而分词对于搜索引擎的更新和完善起着很重要的作用。分词作为搜索引擎的重要组成部分,对搜索引擎的查找正确率以及查找速度具有很大的影响。它将用户输入的语句分割成一个个词语和单字,这样检索程序就能很容易地理解用户所需要的信息,从而为用户返回正确且有价值的信息资料。本文通过对正向最大匹配、逆向最大匹配等分词算法以及词典的整词二分、TRIE索引树、逐字二分和双哈希构造方法进行理论分析,了解各种分词算法和词典构造方法的优点和缺点,并用Java编程实现正向最大匹配、逆向最大匹配的分词算法以及一维线性表、首字哈希、双哈希三种词典构造方法,最终整合实现了Java分词系统。
【作者单位】: 河北大学附属医院;
【关键词】中文分词 词典 最大匹配 双哈希
【分类号】:TP391.1
【正文快照】: 一、绪论对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,也没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。例如在搜索引擎上输入“和

【参考文献】

中国期刊全文数据库 前4条

1 孙茂松,左正平,黄昌宁;汉语自动分词词典机制的实验研究[J];中文信息学报;2000年01期

2 李庆虎,陈玉健,孙家广;一种中文分词词典新机制——双字哈希机制[J];中文信息学报;2003年04期

3 李江波;周强;陈祖舜;;汉语词典的快速查询算法研究[J];中文信息学报;2006年05期

4 陈小荷;自动分词中未登录词问题的一揽子解决方案[J];语言文字应用;1999年03期

【共引文献】

中国期刊全文数据库 前10条

1 高艳萍;于红;尹祥贵;綦孝姬;王春永;赵志强;;基于双数组Trie树的渔业领域分词研究[J];安徽农业科学;2008年11期

2 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期

3 胡顺义;赵晓凡;;基于PB的汉语电子词典管理系统设计与实现[J];安阳师范学院学报;2010年05期

4 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期

5 张林曼;吴升;;地理编码系统中地名地址分词算法研究[J];测绘科学;2010年02期

6 周蕾;;基于碎片分词的未登录词识别方法[J];常熟理工学院学报;2007年02期

7 张霄军;陈小荷;;面向世博语言信息处理的汉英机器词典[J];辞书研究;2007年04期

8 田占霄;韩宪忠;王克俭;;一种改进的长词优先逆向最大匹配分词消歧策略[J];河北农业大学学报;2009年04期

9 赵春红;高希龙;王柠;赵威;刘国华;;一种应用分治策略的中文分词方法[J];燕山大学学报;2009年05期

10 于源,衣袭;中文全切分快速分词方法[J];大连铁道学院学报;2005年02期

中国重要会议论文全文数据库 前10条

1 黄建华;常守锋;董晶晶;;面向北斗短报文的中文分词及压缩编码算法[A];第三届中国卫星导航学术年会电子文集——S02卫星导航信号体制及兼容与互操作[C];2012年

2 徐艳华;;面向自动分词的三音节新词语构词法研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

3 周蕾;李培峰;朱巧明;杨季文;;碎片分词与词结合提取的未登录词识别方法[A];第六届汉语词汇语义学研讨会论文集[C];2005年

4 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年

5 王建民;陈佳鹏;由芳;丁卫彬;;嵌入式电子词典快速查询模型的研究与设计[A];第四届和谐人机环境联合学术会议论文集[C];2008年

6 何伟;侯敏;;利用词汇时间分布信息提取未登录词[A];第九届全国人机语音通讯学术会议论文集[C];2007年

7 苏亮;孙斌;;一种基于Lucene的Hash改进中文分词算法的实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年

8 吴晶晶;荆继武;王平建;;一种基于词典的新型中文分词机制[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年

9 穆飞;李维佳;薛巍;舒继武;;一种分布式信息检索系统的设计与实现[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年

10 何燕;;基于单字词转移概率的未登录词识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年

中国博士学位论文全文数据库 前10条

1 黄水清;非相关文献知识发现方法及在农业经济学中的应用[D];南京农业大学;2010年

2 何婷婷;语料库研究[D];华中师范大学;2003年

3 李庆虎;基于P2P架构的网格文件系统研究[D];清华大学;2004年

4 杨雨图;支持双语的协同CAPP系统若干关键技术研究[D];南京航空航天大学;2006年

5 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年

6 李晓光;XML非完全结构查询处理中若干关键技术的研究[D];东北大学;2006年

7 张春霞;领域文本知识获取方法研究及其在考古领域中的应用[D];中国科学院研究生院(计算技术研究所);2005年

8 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年

9 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年

10 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年

中国硕士学位论文全文数据库 前10条

1 郭瞳康;基于词典的中文分词技术研究[D];哈尔滨理工大学;2010年

2 葛世海;基于J2EE的站群管理平台的设计与实现[D];电子科技大学;2010年

3 甄涛;基于社团发现的Blog信息收集原型系统的研究[D];解放军信息工程大学;2009年

4 蔡蕊;一种新的搜索引擎分词词典的研究[D];山东大学;2010年

5 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年

6 曹亚辉;非结构文本最佳近似匹配系统的研究与实现[D];东华大学;2011年

7 陈磊;用例图到顺序图转换的研究[D];西安电子科技大学;2009年

8 兰冲;基于统计规则的中文分词研究[D];西安电子科技大学;2011年

9 乔小斐;中文自动文摘关键技术的研究与实现[D];西安电子科技大学;2010年

10 王荔;统计全切分中文分词系统的研究与实现[D];西安电子科技大学;2009年

【二级参考文献】

中国期刊全文数据库 前10条

1 王秀坤,李政,简幼良,刘剑;基于Hash方法的机器翻译词典的组织与构造[J];大连理工大学学报;1996年03期

2 梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期

3 张俊盛,陈舜德,郑萦,刘显仲,柯淑津;多语料库作法之中文姓名辨识[J];中文信息学报;1992年03期

4 沈达阳,孙茂松,黄昌宁;汉语分词系统中的信息集成和最佳路径搜索方法[J];中文信息学报;1997年02期

5 孙茂松,左正平,黄昌宁;汉语自动分词词典机制的实验研究[J];中文信息学报;2000年01期

6 杨文峰,陈光英,李星;基于PATRICIA tree的汉语自动分词词典机制[J];中文信息学报;2001年03期

7 李庆虎,陈玉健,孙家广;一种中文分词词典新机制——双字哈希机制[J];中文信息学报;2003年04期

8 孙茂松,黄昌宁,高海燕,方捷;中文姓名的自动辨识[J];中文信息学报;1995年02期

9 张小衡,王玲玲;中文机构名称的识别与分析[J];中文信息学报;1997年04期

10 孙茂松,,邹嘉彦;汉语自动分词研究中的苦干理论问题[J];语言文字应用;1995年04期

【相似文献】

中国期刊全文数据库 前10条

1 李跃民;王浩;赵生慧;;有词典中文分词算法研究[J];滁州学院学报;2008年03期

2 陈烨彬;黄琳;;基于Lucene.Net的知识检索系统的设计与实现[J];现代计算机(专业版);2008年11期

3 赵艳红,费洪晓;一个基于改进的反序分词词典的中文分词算法[J];深圳职业技术学院学报;2004年04期

4 蔡勇智;基于最大匹配分词算法的中文词语粗分模型[J];福建电脑;2005年09期

5 孙霞,郑庆华,王朝静,张素娟;一种基于生语料的领域词典生成方法[J];小型微型计算机系统;2005年06期

6 陈飞;王秀峰;饶一梅;;一种混合的中文分词算法[J];南开大学学报(自然科学版);2007年05期

7 张恒;杨文昭;屈景辉;卢虹冰;张亮;赵飞;;基于词典和词频的中文分词方法[J];微计算机信息;2008年03期

8 梁卓明;陈炬桦;;基于专有名词优先的快速中文分词[J];计算机技术与发展;2008年03期

9 黄德根;焦世斗;周惠巍;;基于子词的双层CRFs中文分词[J];计算机研究与发展;2010年05期

10 王坚,赵恒永;专业搜索引擎中文分词算法的实现与研究[J];福建电脑;2005年07期

中国重要会议论文全文数据库 前10条

1 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

2 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

3 王屹林;朱慕华;朱靖波;;针对SVM中文分词特性的个性化后处理设计[A];第三届学生计算语言学研讨会论文集[C];2006年

4 苏亮;孙斌;;一种基于Lucene的Hash改进中文分词算法的实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年

5 王晔;黄上腾;;基于n-gram相邻字的中文文本特征提取算法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

6 刘凡平;高艳华;于炯;张伟;;基于关键决策方法的站内搜索研究与实现[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年

7 穆飞;李维佳;薛巍;舒继武;;一种分布式信息检索系统的设计与实现[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年

8 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年

9 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

10 曾华琳;李堂秋;曹冬林;;机器辅助翻译系统用词典的管理[A];第二届全国学生计算语言学研讨会论文集[C];2004年

中国重要报纸全文数据库 前10条

1 范力;有道推出桌面词典企业版[N];科技日报;2009年

2 本报记者 李响;丁磊:全力打造中文搜索引擎[N];计算机世界;2008年

3 记者 吴苡婷;用技术挖出网络信息中“金子”[N];上海科技报;2009年

4 中科院计算技术研究所 吕雅娟邋付雷 黄瑾 何中军 刘群;化繁为简的统计机器翻译技术[N];中国计算机报;2007年

5 本报记者 廖剑锋;词典软件告别盒装 用户尽享免费翻译服务[N];通信信息报;2011年

6 ;中英文互译,Word XP就能干[N];中国计算机报;2005年

7 宁海伟;名人CE开启崭新的windows学英语时代[N];中国电脑教育报;2006年

8 王志军;Google输入法的六大特色功能[N];中国电脑教育报;2007年

9 余海玲 本报记者  马里;金山词霸用十年典藏版贺岁[N];大众科技报;2006年

10 高雪娟;企业搜索要为决策服务[N];中国计算机报;2006年

中国博士学位论文全文数据库 前10条

1 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年

2 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年

3 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年

4 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年

5 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年

6 丁建完;陈述式仿真模型相容性分析与约简方法研究[D];华中科技大学;2006年

7 杜伟夫;文本倾向性分析中的情感词典构建技术研究[D];哈尔滨工业大学;2010年

8 任飞亮;高适应性基于实例的机器翻译中关键技术研究[D];东北大学;2008年

9 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年

10 龙腾;旋转方向无关的无约束手写中文词组识别[D];华南理工大学;2008年

中国硕士学位论文全文数据库 前10条

1 苏亮;基于多级Hash分词的全文搜索引擎的研究[D];北京邮电大学;2008年

2 郭庆贺;中文文本姓名识别的研究[D];东北师范大学;2009年

3 崔明明;基于机器学习的中文分词的研究与实现[D];沈阳工业大学;2009年

4 李宏波;综合字典和统计分析的中文分词系统的研究与实现[D];武汉理工大学;2010年

5 岳中原;词典与统计相结合的中文分词的研究[D];武汉理工大学;2010年

6 张淑梅;词典与后缀数组相结合的中文分词[D];吉林大学;2006年

7 何爱元;基于词典和概率统计的中文分词算法研究[D];辽宁大学;2011年

8 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年

9 潘照明;智能中文搜索引擎若干关键技术的研究与实现[D];浙江大学;2006年

10 全俊林;面向OA系统的个性化搜索引擎设计与实现[D];武汉理工大学;2007年



本文编号:917816

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/917816.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0f03c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com