基于搜索引擎的中文分词评估方法
[Abstract]:The result of Chinese word segmentation is an important factor that affects the quality of search engine Chinese retrieval results. It is very important to improve the relevance of search results and the satisfaction of users to improve the accuracy and effectiveness of word segmentation. This paper reviews and arranges the theoretical basis of Chinese word segmentation evaluation, and establishes a complete evaluation method of Chinese word segmentation based on search engine. The evaluation method covers the extraction of evaluation samples, the selection of evaluators, the establishment of evaluation criteria, and the setting of evaluation procedures. The result of example analysis shows that this method is effective. On this basis, the author further discusses the results of the experimental evaluation, and puts forward several suggestions for improving the evaluation effect, including how to consider the background of the evaluator, and how to choose and choose the evaluation items.
【作者单位】: 清华大学工业工程系 清华大学工业工程系
【分类号】:TP391.3
【参考文献】
相关期刊论文 前4条
1 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 王科,高常波,翟雪峰,罗万伯;汉语分词的主要技术及其应用展望[J];通信技术;2003年06期
4 刘开瑛;现代汉语自动分词评测技术研究[J];语言文字应用;1997年01期
【共引文献】
相关期刊论文 前10条
1 杜道流;指称、陈述理论及其对上古语法研究的意义[J];安徽大学学报(哲学社会科学版);2004年01期
2 阮绪和;形名偏正结构的语法功能[J];安徽教育学院学报;2003年02期
3 冯鸣;英语表持续时段的for短语和汉语时量词语的比较[J];安徽广播电视大学学报;2001年02期
4 王葆华;同动式论略[J];安徽师范大学学报(人文社会科学版);1999年03期
5 周国光,黎洪;现代汉语制作动词的配价研究[J];安徽师范大学学报(人文社会科学版);2001年01期
6 熊仲儒;;致使的语音实现及其句法蕴含[J];安徽师范大学学报(人文社会科学版);2005年06期
7 方小中;定中结构研究综述[J];安庆师范学院学报(社会科学版);2004年04期
8 杨峥琳;刘倩;;离合词中时量补语位置探析——从“结了十年婚”说起[J];鞍山师范学院学报;2006年03期
9 傅惠钧;《儿女英雄传》选择问句研究[J];北京大学学报(哲学社会科学版);2000年S1期
10 吕长凤;现代汉语三音节词的词类分布及其语法特征[J];北方论丛;2005年05期
相关会议论文 前10条
1 潘雪莲;;词频统计在词典收词中的作用[A];中国辞书论集2001[C];2001年
2 王慧慧;杨国纬;;基于事例的问答系统研究[A];贵州制约逻辑学会2005年学术年会暨首届全国性逻辑系统专题研讨会论文集[C];2005年
3 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
4 田长生;;浅谈《论语》中的复叠现象[A];江西省语言学会2005年年会论文集[C];2005年
5 阮绪和;;江西武宁(上汤)话的程度副词“死、几、蛮”[A];江西省语言学会2005年年会论文集[C];2005年
6 魏亮珍;;浅析《吕梁英雄传》中的“给”[A];江西省语言学会2006年年会论文集[C];2006年
7 周小婕;;数词研究综述[A];江西省语言学会2006年年会论文集[C];2006年
8 王安琛;;试论“V—V”结构[A];江西省语言学会2006年年会论文集[C];2006年
9 王安琛;;重叠式动补短语的句法语义分析[A];江西省语言学会2006年年会论文集[C];2006年
10 刘淑艳;;英语not和汉语“不”的句法特征对比研究[A];中国英汉语比较研究会第七次全国学术研讨会论文集[C];2006年
相关博士学位论文 前10条
1 吴云霞;万荣方言语法研究[D];厦门大学;2002年
2 王志军;英汉被动句认知对比研究[D];复旦大学;2003年
3 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
4 何婷婷;语料库研究[D];华中师范大学;2003年
5 徐默凡;现代汉语工具范畴的认知研究[D];华东师范大学;2003年
6 聂仁发;现代汉语语篇研究[D];湖南师范大学;2002年
7 樊中元;现代汉语一名多量现象研究[D];湖南师范大学;2003年
8 延俊荣;给予句研究[D];复旦大学;2003年
9 潘文;现代汉语存现句研究[D];复旦大学;2003年
10 周统权;汉语动词配价理论及其神经心理机制研究[D];华中师范大学;2004年
相关硕士学位论文 前10条
1 仲崇涛;类指现象研究[D];南京师范大学;2001年
2 唐培丽;基于语义的汉语文本主题词提取算法研究与实现[D];吉林大学;2005年
3 潘春华;中文农林信息资源主动推送服务研究[D];北京林业大学;2005年
4 何燕;任意类型的未登录词的识别研究[D];北京语言文化大学;2000年
5 娄(王廷);现代汉语分词系统通用性设计及切分歧义处理[D];北京工业大学;2000年
6 胡玉华;《世说新语》助动词研究[D];陕西师范大学;2001年
7 徐云知;近20年语感及语感教学问题研究[D];首都师范大学;2001年
8 宋洪民;李贤的语言观[D];山东师范大学;2001年
9 唐春英;英汉歧义现象对比研究[D];广西师范大学;2001年
10 彭文芳;元代量词研究[D];广西师范大学;2001年
【二级参考文献】
相关期刊论文 前10条
1 殷建平;汉语自动分词方法[J];计算机工程与科学;1998年03期
2 王晓龙,王开铸,李仲荣,白小华;最少分词问题及其解法[J];科学通报;1989年13期
3 李国臣,刘开瑛,张永奎;汉语自动分词及歧义组合结构的处理[J];中文信息学报;1988年03期
4 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
5 梁南元;汉语计算机自动分词知识[J];中文信息学报;1990年02期
6 何克抗,徐辉,孙波;书面汉语自动分词专家系统设计原理[J];中文信息学报;1991年02期
7 梁南元,刘源,沈旭昆,谭强,杨铁鹰;制订《信息处理用现代汉语常用词词表》的原则与问题的讨论[J];中文信息学报;1991年03期
8 韩世欣,王开铸;基于短语结构文法的分词研究[J];中文信息学报;1992年03期
9 曹焕光,郑家恒;自动分词软件质量的评价模型[J];中文信息学报;1992年04期
10 徐秉铮,詹剑,贺前华;基于神经网络的分词方法[J];中文信息学报;1993年02期
【相似文献】
相关期刊论文 前10条
1 马志强;刘利民;苏依拉;马瑞明;;基于Lucene的站内搜索引擎研究[J];内蒙古工业大学学报(自然科学版);2009年01期
2 杜娟;;Nutch中文分词的研究和改进[J];软件导刊;2011年06期
3 王仕仲;宁龙兵;;基于Nutch的中文搜索引擎的研究与实现[J];电脑开发与应用;2009年07期
4 王华栋;饶培伦;;基于搜索引擎的中文分词评估方法[J];情报科学;2007年01期
5 芦淑娟;;WebGIS搜索引擎系统研究与实现[J];软件导刊;2007年05期
6 盛启东;谭守标;徐超;冯二媛;陈军宁;;巧用黑盒法逆推百度中文分词算法[J];计算机技术与发展;2010年04期
7 陈刚;卢炎生;;BBS搜索引擎设计与实现[J];微计算机信息;2006年18期
8 谢峰;刘洪星;;基于Lucene的Web站内搜索引擎的研究[J];电脑知识与技术;2008年04期
9 丁兆贵;金敏;;基于Lucene的个性化搜索引擎研究与实现[J];计算机技术与发展;2011年02期
10 刘兆伟;黄永峰;;面向主题搜索引擎的实现与优化[J];数据通信;2011年04期
相关会议论文 前10条
1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
2 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
3 刘凡平;高艳华;于炯;张伟;;基于关键决策方法的站内搜索研究与实现[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
4 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
5 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
6 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
7 杨萌;李春丽;朱明;;网络搜索技术下的编辑工作[A];学报编辑论丛(第十一集)[C];2003年
8 陈磊;茹立云;马少平;;基于用户日志挖掘的搜索引擎广告效果分析[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
9 申琪君;;电子地图搜索引擎比较[A];中国地理学会2007年学术年会论文摘要集[C];2007年
10 岑荣伟;刘奕群;张敏;茹立云;马少平;;网络搜索引擎用户行为分析和研究[A];第五届全国信息检索学术会议论文集[C];2009年
相关重要报纸文章 前10条
1 博文邋译;你的隐私 搜索引擎知道[N];计算机世界;2007年
2 杨洁;搜索引擎营销市场生变[N];中国计算机报;2007年
3 刘文君;搜索引擎也在寻求创新[N];大众科技报;2007年
4 ;法国挑战谷歌推出卫星地图搜索引擎[N];人民日报;2006年
5 MirrorCity.net技术总监 姚浩;让搜索引擎回归最初梦想[N];中国文化报;2008年
6 本报记者 操秀英;国双科技以技术加服务赢得市场[N];科技日报;2009年
7 赵敏;“鱼群理论”破解搜索营销谜局[N];中国企业报;2007年
8 本报记者 樊哲高;搜索引擎三国纷争 中文市场两军对垒[N];中国电子报;2009年
9 EndTo;优化Meta讨好搜索引擎[N];电脑报;2009年
10 本报记者 马文方;Yebol:从思维科学导出搜索引擎[N];中国计算机报;2010年
相关博士学位论文 前10条
1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
7 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
8 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
9 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
10 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年
相关硕士学位论文 前10条
1 高磊;基于LUCENE的搜索引擎研究与实现[D];武汉理工大学;2007年
2 谢骋超;基于语义的数据库全文检索系统[D];浙江大学;2006年
3 闫继钢;搜索引擎的研究与实现[D];兰州大学;2009年
4 苏亮;基于多级Hash分词的全文搜索引擎的研究[D];北京邮电大学;2008年
5 冯斌;基于Lucene小型搜索引擎的研究与实现[D];武汉理工大学;2008年
6 全俊林;面向OA系统的个性化搜索引擎设计与实现[D];武汉理工大学;2007年
7 刘宏伟;搜索引擎中中文WEB文本自动分类研究[D];暨南大学;2007年
8 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
9 张彬;基于lucene的搜索引擎[D];上海师范大学;2010年
10 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年
,本文编号:2340024
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2340024.html