当前位置:主页 > 科技论文 > 搜索引擎论文 >

Lucene中文分词“庖丁解牛” Paoding Analysis

发布时间:2016-07-14 06:05

  本文关键词:基于Lucene的中文自然语言搜索引擎,由笔耕文化传播整理发布。


  Java开源分类 > 搜索引擎

Lucene中文分词“庖丁解牛” Paoding Analysis 简介信息

Paoding's Knives中文分词具有极高效率和高扩展性。引入隐喻,采用完全的面向对象设计,构思先进。高效率:在PIII 1G内存个人机器上,1秒可准确分词100万汉字。采用基于不限制个数的词典文件对文章进行有效切分,使能够将对词汇分类定义。能够对未知的词汇进行合理解析。

该项目主页:

本分类【搜索引擎】其它开源项目

  相关的文档 -> 更多

 基于Lucene的中文自然语言搜索引擎.pdf

基于Lucene的中文自然语言搜索引擎摘要Internet技术的飞速发展,信息的发布与共享超越了时空的限制,人类进入一个前所未有的“信息爆炸”时代。互联网信息的极速膨胀提供给用户海量的信息资源的同时,也带来了寻找信息的困难。如果没有一个强有力的工具来帮助人们寻找、发掘有用的信息,人们就会被湮没在信...

 Lucene 全文搜索引擎的应用(设计)论文.pdf

Lucene是一个广受赞誉的搜索引擎开发库,它可以很方便地为图书信息文档建立索引并提供搜索。本文通过对Lucene技术的研究,采用Lucene技术设计和开发了上海市高校图书搜索引擎系统。论文详细介绍了该系统的设计架构和关键实现技术。系统针对各高校图书数据库异构的问题,通过文档对象模型技术开放出统一的...

 Lucene 全文搜索引擎的应用本科生毕业设计(论文).pdf

Lucene是一个广受赞誉的搜索引擎开发库,它可以很方便地为图书信息文档建立索引并提供搜索。本文通过对Lucene技术的研究,采用Lucene技术设计和开发了上海市高校图书搜索引擎系统。论文详细介绍了该系统的设计架构和关键实现技术。系统针对各高校图书数据库异构的问题,通过文档对象模型技术开放出统一的...

 一个例子学懂搜索引擎(lucene).doc

其实,lucene是一个很容易上手的搜索引擎框架,传统的搜索引擎,涉及到爬虫,也就是爬取网页,然后对网页进行加工,也就是索引,最后用于搜索,lucene这个框架可以很方便的帮你做到后面两个步骤,也就是索引和搜索!本文尝试通过一个例子,使大家掌握lucene的使用核心方法,包括分词、索引、搜索不同的目...

 中文搜索引擎核心技术揭密:中文分词.doc

目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同,这其中对于计算机涉及的技术就是中文分词。什么是中文分词众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的...


  相关的经验 -> 更多

11款开放中文分词引擎大比拼

来自: 在逐渐步入DT(Data Technology)时代的今天,自然语义分析技术越发不可或缺。对于我们每天打交道的中文来说,并没有类似英文空格的边界标志。而理解句... ...

java版结巴分词:jieba-analysis

结巴分词的原始版本为python编写,目前该项目在github上的关注量为170, 打星727次(最新的数据以原仓库为准),Fork238次,可以说已经有一定的用户群。 结巴分词(java版)只保留的原项目针对搜索引擎分词的功能(cut_for_index、cut_for_search),词性标注... ...

lucene创建索引初步和搜索初步

1 lucene简介 1.1 什么是lucene     Lucene是一个全文搜索框架,而不是应用产品。因此它并不像 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。 2 lucene的工作方式 &nbs... ...

Lucene开发实例:Lucene中文分词

1、准备工作 下载lucene 3.6.1 : 下载中文分词IK Analyzer: (注意下载的是IK Analyzer ... ...

基于IKAnalyzer实现一个Elasticsearch中文分词插件

虽然Elasticsearch有原生的中文插件elasticsearch-analysis-smartcn(实际上是lucence的org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer),,但它似乎没能满足我的要求。比如我希望对文档中的“林夕... ...


  本文关键词:基于Lucene的中文自然语言搜索引擎,由笔耕文化传播整理发布。



本文编号:70725

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/70725.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c8342***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com