当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于词典的中文分词算法研究及其在Nutch系统中的应用

发布时间:2020-01-28 03:35
【摘要】:随着数字化、网络化和信息化的飞速增长,一个以信息为核心的时代已经到来。对实现信息化来说中文信息检索已显得日益重要。作为中文信息处理领域的一项基础性课题,中文分词技术也日渐受到人们的重视,中文分词的准确性对中文信息检索有着至关重要的作用。因此中文信息检索已经成为信息社会的命脉和发展知识经济的重要基础。中文信息检索对社会生活的很多方面以及对社会经济的发展已经产生了不可估量的影响。 Java编程语言依靠其较强的可移植性及安全性,在互联网中得到了广泛的应用。Nutch引擎工具就是基于Java语言开发的一个搜索引擎开发应用环境,其包括了自由的开发组件,较强的可扩展性及开放性使得其很快被搜索引擎开发者所接收,人们可以通过简单配置来实现LAN/WAN网络的搭建。针对于人们生活、工作及学习交往都离不开搜索引擎的形势下,本文应用Nutch工具进行了中文分词技术的研究。 由于中英文处理机制在自然语言处理技术中存在着较大差距,因此在中文信息检索过程则不可避免的要面对中文分词这一工作,对于很多比较成熟的英语词语处理方法在中文检索过程中是无法使用的。中文分词作为中文检索的核心,是一门较为独立的技术,而搜索引擎作为这一技术的实际体现,有着较为广泛的使用范围。不仅仅是中文搜索,对于中文自动校对、中文智能翻译等先进技术,其核心技术同样是分词。本文通过了解中文分词的发展现状及目前三种主要的中文分词算法,进行分析总结,从理论上对整词二分、TRIE索引树、逐字二分三种词典组织形式进行了分析和对比,提出一种新的中文分词检索手段——双字Hash索引分词机制,该方法同样是将词条在词典中进行对比,然而对应的词典有一定的动态性,由此大大提高了中文的检索效率。通过具体的实验很好地证实了本方法的优越性。采用双字Hash索引分词词典和正向最大匹配算法相结合,实现了基于词典的中文分词算法。通过对Nutch分词架构的分析及代码的修改,将已实现的中文分词算法作为插件导入Nutch这一搜索引擎应用程序,经测试,中文插件能使此搜索引擎具有较好的中文处理能力,从而提高了检索效率。
【图文】:

UML图,词组,索引,方案


了一个 n-grams 的分词方案,因为需要在索引中考虑词组的出现频率,并且实n-grams 方案词组查询的优化措施。在 n-grams 方案中单个的词组同样会被该方索引期间大量使用了 Token(org.apache.lucene.analysis.Token)的各种方法,并且用 nutch/conf/nutch-default.xml 中 analysis.common.terms.file 的配置属性。其上各个类与接口的 UML 图如图 2.2 所示:

效果图,效果测试,词库,效果图


图 3.7 导入词库及分词效果测试效果图3、分词效果测试本文采用的双字哈希算法,能识别部分专有名词,如:百度、秦皇岛等,较好中文分词,,准确率较高,分词效果如图 3.8 所示。图 3.8 分词效果测试图
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 杜娟;;Nutch中文分词的研究和改进[J];软件导刊;2011年06期

2 王仕仲;宁龙兵;;基于Nutch的中文搜索引擎的研究与实现[J];电脑开发与应用;2009年07期

3 蔡小艳;沈巍;胡婷婷;曹永刚;;Nutch中文分词插件的编写与实现[J];信息技术;2010年02期

4 郑小波;郑诚;封军;;基于Nutch专题搜索引擎的研究[J];微计算机信息;2010年30期

5 蔡小艳;寇应展;沈巍;郑伟;;Nutch-0.9中JE中文分词的实现[J];科学技术与工程;2008年17期

6 朱莹芳;;JAVA技术与人工智能在搜索引擎上的应用[J];硅谷;2009年24期

7 蔡小艳;寇应展;沈巍;郑伟;;汉语词法分析系统ICTCLAS在Nutch-0.9中的应用与实现[J];军械工程学院学报;2008年05期

8 陈建锋;;Nutch的中文问题研究[J];现代计算机(专业版);2009年07期

9 胡涛;路红英;;基于Nutch的搜索引擎的研究[J];计算机时代;2007年01期

10 张敏;杜华;;垂直搜索引擎系统的设计与实现[J];情报科学;2011年03期

相关会议论文 前10条

1 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年

2 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

3 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

4 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

5 赵海;揭春雨;;基于子串标注的中文分词:寻找更佳的标注单元[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

6 彭辉;翟翔;;AutoCAD 2008自动翻译软件研发[A];全国冶金自动化信息网2010年年会论文集[C];2010年

7 王屹林;朱慕华;朱靖波;;针对SVM中文分词特性的个性化后处理设计[A];第三届学生计算语言学研讨会论文集[C];2006年

8 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系统中的应用研究[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年

9 刘东生;尹宝生;张桂平;徐立军;苗雪雷;;面向专利文献的中文分词技术的研究[A];第五届全国信息检索学术会议论文集[C];2009年

10 黄昌宁;赵海;;由字构词——中文分词新方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

相关重要报纸文章 前10条

1 清华大学IT可用性实验室;2005中文搜索引擎质量对比[N];计算机世界;2005年

2 本报记者 张彤;让计算机说中国话[N];网络世界;2004年

3 记者 吴苡婷;用技术挖出网络信息中“金子”[N];上海科技报;2009年

4 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年

5 贺俊;汇聚亿万草根智慧 奇虎发布经验搜索[N];证券日报;2006年

6 记者 杨朝晖;医药搜索:不再“众里寻他千百度”[N];科技日报;2007年

7 张韬;谷歌推出“谷歌拼音”力拼百度[N];上海证券报;2007年

8 王翌;互联网2005:个性化生存[N];计算机世界;2005年

9 李永胜;在中文网页搜索质量上 Google险胜百度[N];中国计算机报;2007年

10 记者 李霆钧;国内首个“影视剧植入广告分析系统”出炉[N];中国电影报;2010年

相关博士学位论文 前10条

1 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年

2 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年

3 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年

4 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年

5 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年

6 任飞亮;高适应性基于实例的机器翻译中关键技术研究[D];东北大学;2008年

7 张京楣;基于统计方法的文本风格分析研究[D];山东大学;2012年

8 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年

9 汤步洲;序列标注问题的监督学习方法及应用[D];哈尔滨工业大学;2011年

10 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年

相关硕士学位论文 前10条

1 李东海;基于Nutch技术的主题搜索引擎实现[D];吉林大学;2008年

2 张慧;旅游信息垂直搜索系统的设计与实现[D];北京邮电大学;2009年

3 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年

4 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年

5 戚晶;基于RSS的搜索引擎的研究与实现[D];吉林大学;2006年

6 马莉;基于SVM的垃圾邮件过滤的研究[D];山东大学;2005年

7 王新梅;基于内容挖掘的垃圾邮件过滤技术[D];武汉理工大学;2006年

8 李培国;基于人工神经网的中文垃圾邮件过滤器的设计与实现[D];暨南大学;2007年

9 刘琨;搜索引擎的研究与实现[D];西安电子科技大学;2004年

10 王圆;文本内容过滤的关键技术研究[D];东北师范大学;2006年



本文编号:2573873

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2573873.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b1d16***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com