开源中文分词器在web搜索引擎中的应用
本文关键词:开源中文分词器在web搜索引擎中的应用
更多相关文章: 分词器 web搜索 信息检索 智能分词 全文搜索
【摘要】:目前,在信息检索方面,一般分词器对英文的支持相对较好,但对中文分词效果不太理想;随着web搜索在互联网中的广泛应用,中文分词器也出现了突飞猛进的发展,尤其以IKAnalyzer分词器为主的分词工具,为更多企事业单位所采纳。本文主要在词条化等方面对分词原理进行深入的分析,并且对如何构造智能分词词典进行了探讨。同时,对分词内部结构进行研究,在分词数目和速率方面对目前主流的中文分词器进行了比较,并运用htmlparser库对北京邮电大学的网站进行解析,采用分词工具Paoding Analysis建立索引文件存入本地,利用solt4.0全文搜索服务器给出运用中文分词后的查询效果图,实现对北京邮电大学网站的全文搜索功能。
【作者单位】: 北京邮电大学电子工程学院;北京邮电大学自动化学院;
【关键词】: 分词器 web搜索 信息检索 智能分词 全文搜索
【分类号】:TP391.3
【正文快照】: O引言随着互联网的飞速发展,搜索引擎在实时搜索、社会化搜索和个性化搜索等方面发生着巨大的变化,,从而促使人们在性能、功能和界面上的要求越来越高,而其中起着关键作用的分词技术也在潜移默化的更新换代。目前几大主要的搜索引擎都采用如下的工作原理:用户输人搜索关键
【参考文献】
中国期刊全文数据库 前3条
1 费洪晓,康松林,朱小娟,谢文彪;基于词频统计的中文分词的研究[J];计算机工程与应用;2005年07期
2 陈林;杨丹;赵俊芹;;基于语义理解的智能搜索引擎研究[J];计算机科学;2008年06期
3 陈红涛;杨放春;陈磊;;基于大规模中文搜索引擎的搜索日志挖掘[J];计算机应用研究;2008年06期
中国硕士学位论文全文数据库 前1条
1 王茜;基于字符串匹配的中英文混合分词技术研究[D];四川师范大学;2011年
【共引文献】
中国期刊全文数据库 前10条
1 白晓梅;张福利;;校园网中文搜索引擎系统的设计[J];鞍山师范学院学报;2006年06期
2 耿新青;陶凤梅;黄宏光;;一种基于近邻匹配的中文分词算法Jlppeccz[J];鞍山师范学院学报;2010年04期
3 徐光侠;封雷;涂演;李成;;基于Android和Google Maps的生活辅助系统的设计与实现[J];重庆邮电大学学报(自然科学版);2012年02期
4 田占霄;韩宪忠;王克俭;;一种改进的长词优先逆向最大匹配分词消歧策略[J];河北农业大学学报;2009年04期
5 赵春红;高希龙;王柠;赵威;刘国华;;一种应用分治策略的中文分词方法[J];燕山大学学报;2009年05期
6 汤国锋;徐振伟;张华熊;;基于Lucene的中文分词技术研究[J];电脑编程技巧与维护;2012年10期
7 康松林;施荣华;;基于信息元的教学资源组织系统的设计与实现[J];电脑与信息技术;2006年04期
8 陈文君;於文雪;;汉英跨语言检索系统中关键词提取方法的研究[J];电脑知识与技术;2009年28期
9 叶敏;范金锋;;基于二叉排序树及中文分词的关键字过滤技术[J];电力信息化;2011年07期
10 孙铁利;刘延吉;;中文分词技术的研究现状与困难[J];信息技术;2009年07期
中国重要会议论文全文数据库 前1条
1 王芳;万常选;;基于互信息的中文完整词自动识别模型[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
中国博士学位论文全文数据库 前3条
1 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
2 夏天;研究性学习支持系统[D];华东师范大学;2007年
3 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
中国硕士学位论文全文数据库 前10条
1 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
2 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
3 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
4 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
5 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
6 周月红;基于Lucene的站内搜索引擎的设计与开发[D];华东理工大学;2011年
7 林渌;基于新闻主题模型的热点工作挖掘系统[D];浙江大学;2011年
8 曹亚辉;非结构文本最佳近似匹配系统的研究与实现[D];东华大学;2011年
9 惠国宝;基于统计和语义分析的分词及在产品设计中的应用[D];西安电子科技大学;2011年
10 詹圣君;基于用户行为日志分析的搜索引擎排序算法研究[D];湖北工业大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
2 王显芳,杜利民;一种能够检测所有交叉歧义的汉语分词算法[J];电子学报;2004年01期
3 张仰森,徐波,曹元大;自然语言处理中的语言模型及其比较研究[J];广西师范大学学报(自然科学版);2003年01期
4 王继民,陈
本文编号:1107837
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1107837.html