浅谈中文切词算法
本文关键词:浅谈中文切词算法
【摘要】:如何高效率的获取满足个性化的需求成为了新时代的一个热门话题,搜索引擎在一定程度上体现了这一点。然而在搜索引擎中,内部分词算法机制是关键环节,它的目的在于选取好的关键字。一个好的分词算法会降低用户搜索信息的时间和难度,大大提高查询信息的效率。然而目前有很多分词算法,它们的性能和效率各不相同,本文的主要研究目的是探讨目前几种比较流行分词器算法的工作机制,根据它们自身的不同特点,在准确率和召回率这两个方面来比较它们的性能,并进一步研究它们是如何处理用户关键字的。
【作者单位】: 福建师范大学闽南科技学院计算机系;
【关键词】: 智能信息处理 网页处理 切词算法 网络爬虫
【基金】:大学生创新项目:列线寻呼系统
【分类号】:TP391.1
【正文快照】: 0引言所谓中文切词[1]就是将一个汉字序列切分成一个一个单独的词。这些词可以让信息检索系统理解用户的检索要求,进而为其搜索相关的内容。可以说它是搜索引擎[2]的关键,是文本挖掘的基础。但是如何分,分好之后如何让计算机理解,其处理过程就是分词算法。目前相关的中文分词
【参考文献】
中国期刊全文数据库 前2条
1 曹桂宏,何丕廉,吴光远,聂颂;中文分词对中文信息检索系统性能的影响[J];计算机工程与应用;2003年19期
2 张自然,金燕;知识检索与信息检索的检索效率比较[J];情报科学;2005年04期
中国硕士学位论文全文数据库 前1条
1 周程远;中文自动分词系统的研究与实现[D];华东师范大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 龙树全;赵正文;唐华;;中文分词算法概述[J];电脑知识与技术;2009年10期
2 孔浩;全晓松;陈永华;;高校网络社区舆论搜集中同义词分词器的实现[J];北京邮电大学学报(社会科学版);2012年05期
3 孙秉强;康耀红;;经过预处理的中文二元分词技术[J];计算机时代;2006年01期
4 叶仕平;;浅谈图书馆网络信息检索方法与技巧[J];科技情报开发与经济;2009年22期
5 王芳;万常选;;基于可信度的中文完整词自动识别[J];中文信息学报;2009年03期
6 廖利文;;现代信息检索的演变[J];内蒙古科技与经济;2006年12期
7 冯光;乔丹丹;常静怡;;基于分词匹配的主观题自动评阅技术研究[J];计算机与现代化;2013年03期
8 杨建林;孙明军;;知识检索概念辨析[J];情报理论与实践;2006年04期
9 焦玉英;宋晓晴;;基于VSM的文档信息检索改进[J];情报理论与实践;2007年01期
10 李爱明;朱玲玲;;基于关键词的网络信息检索与知识检索比较[J];情报探索;2006年05期
中国重要会议论文全文数据库 前3条
1 马春雷;;基于向量空间模型的中文文本检索研究[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
2 王芳;万常选;;基于可信度的中文完整词自动识别[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
3 王芳;万常选;;基于互信息的中文完整词自动识别模型[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
中国博士学位论文全文数据库 前2条
1 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
2 黄建年;农业古籍的计算机断句标点与分词标引研究[D];南京农业大学;2009年
中国硕士学位论文全文数据库 前10条
1 王红胜;多文档全文检索系统的设计与开发[D];电子科技大学;2010年
2 蔡蕊;一种新的搜索引擎分词词典的研究[D];山东大学;2010年
3 华大年;手机产品信息垂直搜索引擎系统设计与开发[D];武汉理工大学;2011年
4 何爱元;基于词典和概率统计的中文分词算法研究[D];辽宁大学;2011年
5 于景茹;基于Lucene的职位垂直搜索引擎的研究与实现[D];郑州大学;2011年
6 邢敏玲;基于网页分块的主题爬虫方法研究[D];重庆大学;2011年
7 白玉昭;垂直搜索引擎的研究与实现[D];江南大学;2012年
8 张晓淼;基于神经网络的中文分词算法的研究[D];大连理工大学;2006年
9 杨珂;基于Linux的智能内容过滤防火墙的研究与实现[D];西北大学;2006年
10 韦佳;语义Web在概念检索中的研究与应用[D];哈尔滨工业大学;2006年
【二级参考文献】
中国期刊全文数据库 前10条
1 郭家义;网络信息检索效率研究[J];图书与情报;2003年02期
2 刘志勇;网络环境下信息检索效率的评价[J];大连大学学报;2002年01期
3 韩利凯;;一种快速Web中文分词算法的研究[J];航空计算技术;2007年06期
4 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
5 欧振猛,余顺争;中文分词算法在搜索引擎应用中的研究[J];计算机工程与应用;2000年08期
6 郑德权,于凤,王开涛 ,赵铁军;基于汉语二字应成词的歧义字段切分方法[J];计算机工程与应用;2003年01期
7 湛燕,陈昊,袁方,王熙照;基于中文文本分类的分词方法研究[J];计算机工程与应用;2003年23期
8 马玉春,宋瀚涛;Web中文文本分词技术研究[J];计算机应用;2004年04期
9 周程远;朱敏;杨云;;基于词典的中文分词算法研究[J];计算机与数字工程;2009年03期
10 肖红;许少华;李欣;;具有三级索引词库结构的中文分词方法研究[J];计算机应用研究;2006年08期
【相似文献】
中国期刊全文数据库 前10条
1 王熠;;现代会计信息系统构建探析[J];山东理工大学学报(社会科学版);2005年06期
2 陈哲;;垂直搜索中网页抓取技术的研究[J];科技信息;2009年22期
3 于瑞萍;张明;;中文文本自动分类中特征词选择算法研究[J];硅谷;2009年20期
4 ;第三届全国智能信息处理学术会议(NCIIP2011)征文通知[J];模式识别与人工智能;2011年01期
5 王舜燕;李蕾;吴兵华;;基于ID3分类算法的深度网络爬虫设计[J];现代图书情报技术;2008年06期
6 詹恒飞;杨岳湘;方宏;;Nutch分布式网络爬虫研究与优化[J];计算机科学与探索;2011年01期
7 王芳;陈海建;;深入解析Web主题爬虫的关键性原理[J];微型电脑应用;2011年07期
8 刘洁清;吴京慧;;面向主题的个人实时搜索引擎的设计与实现[J];现代图书情报技术;2006年05期
9 张瑞华;周延泉;王枞;李蕾;;移动终端离线浏览系统的新闻推荐服务研究[J];北京邮电大学学报;2006年06期
10 彭轲;廖闻剑;;基于浏览器服务的网络爬虫[J];硅谷;2009年04期
中国重要会议论文全文数据库 前10条
1 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
2 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
3 帅藕莲;邹生;;信息高速公路与智能集成信息处理[A];1995中国控制与决策学术年会论文集[C];1995年
4 邹永斌;陈兴蜀;王文贤;;一个高性能Web资源收集系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
5 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
6 刘凡平;高艳华;于炯;张伟;;基于关键决策方法的站内搜索研究与实现[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
7 刮俊杰;吴树国;伊胜伟;;基于词效应的中文术语提取方法[A];第三届中国智能计算大会论文集[C];2009年
8 徐波;;海量音频处理及嵌入式语音交互[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
9 ;第一届全国信息检索与内容安全学术会议组织情况[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 朴星海;赵铁军;郑德权;张迪;;面向Blog的网络爬行器设计与实现[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国重要报纸全文数据库 前3条
1 王惠临;意义计算研究的兴起与发展[N];中国社会科学院报;2009年
2 张驰;发改委启动金宏工程清华同方知网担负研发重任[N];中国高新技术产业导报;2007年
3 郭莹;全文检索市场空间大[N];中国计算机报;2006年
中国博士学位论文全文数据库 前4条
1 张瑞军;基于信息链的智能信息处理关键技术研究[D];武汉理工大学;2007年
2 吴应良;网络计算中的智能信息处理方法研究[D];华南理工大学;2000年
3 姜保庆;关于弱比例规则的挖掘及推理研究[D];西南交通大学;2005年
4 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
中国硕士学位论文全文数据库 前10条
1 金梅;网络爬虫性能提升与功能拓展的研究与实现[D];吉林大学;2012年
2 芮虎;比价购物平台中网络爬虫的设计与实现[D];华东理工大学;2013年
3 赵茉莉;网络爬虫系统的研究与实现[D];电子科技大学;2013年
4 龚秋艳;并行网络爬虫设计与实现[D];华东师范大学;2010年
5 王毅桐;分布式网络爬虫技术研究与实现[D];电子科技大学;2012年
6 黄晓鹏;基于网络爬虫技术的内容探测系统设计与实现[D];北京邮电大学;2010年
7 么士宇;基于分布式计算的网络爬虫技术研究[D];大连海事大学;2011年
8 王洪威;主题网络爬虫的分析与设计[D];北京邮电大学;2013年
9 郭海燕;搜索引擎中网络爬虫技术研究[D];西安电子科技大学;2009年
10 龚勇;搜索引擎中网络爬虫的研究[D];武汉理工大学;2010年
,本文编号:811289
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/811289.html