基于Lucene的中文字典分词模块的设计与实现
本文选题:搜索引擎 + Lucene ; 参考:《现代图书情报技术》2006年08期
【摘要】:在分析Lucene语言分析器结构的基础上,采用基于中文字典的正向最大匹配分词算法,设计实现能够在基于Lucene的搜索引擎中处理中文信息的中文分词模块。
[Abstract]:On the basis of analyzing the structure of Lucene language analyzer, a Chinese word segmentation module which can deal with Chinese information in search engine based on Lucene is designed and implemented by using the forward maximum matching segmentation algorithm based on Chinese dictionary.
【作者单位】: 华中科技大学控制科学与工程系 华中科技大学图书馆 华中科技大学控制科学与工程系
【分类号】:TP391.1
【参考文献】
相关期刊论文 前4条
1 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
2 李庆虎,陈玉健,孙家广;一种中文分词词典新机制——双字哈希机制[J];中文信息学报;2003年04期
3 高琰,谷士文,谭立球,费耀平;基于Lucene的搜索引擎设计与实现[J];微机发展;2004年10期
4 郭辉,苏中义,王文 ,崔骏;一种改进的MM分词算法[J];微型电脑应用;2002年01期
【共引文献】
相关期刊论文 前10条
1 于源,衣袭;中文全切分快速分词方法[J];大连铁道学院学报;2005年02期
2 吴静,蔡砥,王铮;地理信息系统中自然语言查询的分词处理与应用[J];地球信息科学;2005年03期
3 温艳鸿;;基于lucene的文件搜索引擎的设计与扩展[J];福建电脑;2007年08期
4 潘以锋;;基于Lucene的网站全文检索系统的开发[J];广西教育学院学报;2006年05期
5 韩正服;杨喜权;张一鸣;丛荣华;;基于特征码的大规模XML文档去重研究[J];中国管理信息化(综合版);2006年07期
6 蒋斌;杨超;赵欢;;基于二字词位图表的汉语自动分词词典机制[J];湖南大学学报(自然科学版);2006年01期
7 马哲,姚敏;一种改进的基于PATRICIA树的汉语自动分词词典机制[J];华南理工大学学报(自然科学版);2004年S1期
8 翟凤文;赫枫龄;左万利;;基于统计规则的交集型歧义处理方法[J];吉林大学学报(理学版);2006年02期
9 唐培丽,胡明,张勇;基于中文文本主题提取的分词方法研究[J];吉林工程技术师范学院学报;2005年02期
10 费洪晓;胡海苗;巩燕玲;;基于Hash结构的机械统计分词系统研究[J];计算机工程与应用;2006年05期
相关博士学位论文 前8条
1 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
2 杨雨图;支持双语的协同CAPP系统若干关键技术研究[D];南京航空航天大学;2006年
3 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
4 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
5 颜端武;面向知识服务的智能推荐系统研究[D];南京理工大学;2007年
6 常娥;古籍智能处理技术研究[D];南京农业大学;2007年
7 何琳;古农学本体的半自动构建及检索研究[D];南京农业大学;2007年
8 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
相关硕士学位论文 前10条
1 袁亮;一个基于WEB的信息组织与检索模型(WIORS)研究[D];武汉大学;2005年
2 张旭洁;基于语义网络的类自然语言的知识获取与转换的研究[D];云南师范大学;2006年
3 潘景剑;具有中文人名识别功能的汉语自动分词算法研究[D];河北工业大学;2006年
4 王倩倩;基于覆盖算法的中文垃圾邮件过滤[D];安徽大学;2007年
5 刘军;基于论点倾向的网络信息内容实时分析研究[D];四川大学;2003年
6 刘钢;基于神经网络的文本分类系统NNTCS的设计和实现[D];中国科学院研究生院(软件研究所);2003年
7 王丁;基于中文文本分类的自动诊病系统[D];哈尔滨理工大学;2003年
8 于波;中文全文检索技术研究[D];华中师范大学;2003年
9 马哲;垃圾邮件过滤系统的研究与实现[D];浙江大学;2005年
10 杨才峰;基于自动分类的元搜索引擎的研究与应用[D];华北电力大学(河北);2005年
【二级参考文献】
相关期刊论文 前10条
1 湛燕,陈昊,袁方,王熙照;基于中文文本分类的分词方法研究[J];计算机工程与应用;2003年23期
2 张滨,晏蒲柳,李文翔,夏德麟;基于汉语句模的中文分词算法[J];计算机工程;2004年01期
3 孙茂松,肖明,邹嘉彦;基于无指导学习策略的无词表条件下的汉语自动分词[J];计算机学报;2004年06期
4 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
5 骆正清,陈增武,胡上序;一种改进的MM分词方法的算法设计[J];中文信息学报;1996年03期
6 孙茂松,左正平,黄昌宁;汉语自动分词词典机制的实验研究[J];中文信息学报;2000年01期
7 李蓉,刘少辉,叶世伟,史忠植;基于SVM和k-NN结合的汉语交集型歧义切分方法[J];中文信息学报;2001年06期
8 雷西川,余靖维,卢晓玲;基于相邻知识的汉语自动分词系统研究[J];情报科学;1994年01期
9 郭祥昊,钟义信,杨丽;基于两字词簇的汉语快速自动分词算法[J];情报学报;1998年05期
10 亢临生,张永奎;基于标记的分词算法[J];山西大学学报(自然科学版);1994年03期
【相似文献】
相关期刊论文 前10条
1 朱海丰;秦杰;;基于Lucene与JSF的搜索引擎[J];福建电脑;2008年10期
2 刘敏娜;葛萌;陈娟;;基于Lucene的全文搜索引擎设计与实现[J];福建电脑;2009年05期
3 侯云;;构建基于Lucene的网站站内搜索[J];信息与电脑(理论版);2010年02期
4 温艳鸿;;基于lucene的文件搜索引擎的设计与扩展[J];福建电脑;2007年08期
5 刘建湘;杨文涛;;基于Lucene的搜索引擎在Struts中的应用[J];软件导刊;2007年03期
6 孟祥成;;基于Lucene和Heritrix技术搜索引擎的设计与实现[J];中国现代教育装备;2010年03期
7 任晓娜;;基于Lucene的全文搜索引擎的研究与实现[J];湖北广播电视大学学报;2010年05期
8 张春燕;刘发升;;关于Lucene索引工具的性能优化研究[J];计算机技术与发展;2011年05期
9 严良达;;基于Lucene搜索引擎的设计与实现[J];宁波职业技术学院学报;2009年02期
10 赵旭;王庆桦;;向LUCENE搜索引擎中加入中文同义词查询[J];科技信息;2011年07期
相关会议论文 前10条
1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
2 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
3 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
4 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
5 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
6 杨萌;李春丽;朱明;;网络搜索技术下的编辑工作[A];学报编辑论丛(第十一集)[C];2003年
7 陈磊;茹立云;马少平;;基于用户日志挖掘的搜索引擎广告效果分析[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
8 申琪君;;电子地图搜索引擎比较[A];中国地理学会2007年学术年会论文摘要集[C];2007年
9 岑荣伟;刘奕群;张敏;茹立云;马少平;;网络搜索引擎用户行为分析和研究[A];第五届全国信息检索学术会议论文集[C];2009年
10 萨晓静;;网络化生存下的图书馆改革之路[A];福建省图书馆学会2008年学术年会论文集[C];2008年
相关重要报纸文章 前10条
1 博文邋译;你的隐私 搜索引擎知道[N];计算机世界;2007年
2 杨洁;搜索引擎营销市场生变[N];中国计算机报;2007年
3 刘文君;搜索引擎也在寻求创新[N];大众科技报;2007年
4 ;法国挑战谷歌推出卫星地图搜索引擎[N];人民日报;2006年
5 MirrorCity.net技术总监 姚浩;让搜索引擎回归最初梦想[N];中国文化报;2008年
6 本报记者 操秀英;国双科技以技术加服务赢得市场[N];科技日报;2009年
7 赵敏;“鱼群理论”破解搜索营销谜局[N];中国企业报;2007年
8 本报记者 樊哲高;搜索引擎三国纷争 中文市场两军对垒[N];中国电子报;2009年
9 EndTo;优化Meta讨好搜索引擎[N];电脑报;2009年
10 本报记者 马文方;Yebol:从思维科学导出搜索引擎[N];中国计算机报;2010年
相关博士学位论文 前10条
1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
7 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
8 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
9 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年
10 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年
相关硕士学位论文 前10条
1 闻峥;基于Lucene的搜索引擎优化[D];北京交通大学;2011年
2 张彬;基于lucene的搜索引擎[D];上海师范大学;2010年
3 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
4 杨晓丹;基于Lucene的主题搜索引擎模板的设计与实现[D];浙江工商大学;2011年
5 李建林;基于Lucene的Web搜索引擎的研究[D];兰州理工大学;2010年
6 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
7 潘亭沥;基于Lucene的面向商业应用的搜索引擎研究与实现[D];电子科技大学;2007年
8 何世林;基于Java技术的搜索引擎研究与实现[D];西南交通大学;2006年
9 王冬坡;基于Lucene的主题搜索引擎的研究与实现[D];河北科技大学;2010年
10 冯斌;基于Lucene小型搜索引擎的研究与实现[D];武汉理工大学;2008年
,本文编号:1739252
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1739252.html