当前位置:主页 > 科技论文 > 搜索引擎论文 >

一种基于词典的搜索引擎系统动态更新模型

发布时间:2018-08-29 18:37
【摘要】:基于词汇标注的特征项提取方法是中文信息处理的有效方法 ,但词汇的析取是基于词典的 ,词典的涵盖程度决定了词汇切分的准确率 .因而不断地学习新词汇、动态地维护词典 ,使整个中文信息处理系统具有自适应性和动态性就成了一个关键问题 .以搜索引擎系统为例 ,提出了一种基于词典动态变化的搜索引擎系统更新理论模型和实现模型 .相关实验表明 ,该模型对缩短搜索引擎信息库的更新时间、提高查询准确率等方面十分有效
[Abstract]:Feature extraction based on lexical tagging is an effective method for Chinese information processing, but lexical extraction is based on dictionaries. The accuracy of lexical segmentation is determined by the extent of lexical coverage. So it is a key problem to learn new words and maintain dictionaries dynamically so that the whole Chinese information processing system is adaptive and dynamic. Taking search engine system as an example, this paper presents a theoretical model and implementation model of search engine system updating based on dictionary dynamic change. Relevant experiments show that the model is very effective in shortening the update time of search engine information base and improving the query accuracy.
【作者单位】: 北京大学计算机科学技术系!北京100871 北京大学计算机科学技术系!北京100871 北京大学计算机科学技术系!北京100871 北京大学计算机科学技术系!北京100871
【基金】:国家“九五”重点科技攻关项目基金资助!(项目编号 96 -743 -0 1-0 5 -0 1)
【分类号】:TP391.3

【共引文献】

相关期刊论文 前5条

1 周水庚,关佶红,胡运发,周傲英;一个无需词典支持和切词处理的中文文档分类系统[J];计算机研究与发展;2001年07期

2 冯是聪,张志刚,李晓明;一种中文网页自动分类方法的实现及应用[J];计算机工程;2004年05期

3 吴光远,何丕廉,曹桂宏,聂颂;基于向量空间模型的词共现研究及其在文本分类中的应用[J];计算机应用;2003年S1期

4 周水庚,关佶红,俞红奇,胡运发;基于Ngram信息的中文文档分类研究[J];中文信息学报;2001年01期

5 郑小慎 ,何丕廉 ,陈治纲 ,任大同 ,吴克敏;基于凝聚点的文本动态聚类分析[J];微型机与应用;2004年08期

相关博士学位论文 前2条

1 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年

2 贾自艳;Web信息智能获取若干关键问题研究[D];中国科学院研究生院(计算技术研究所);2004年

相关硕士学位论文 前5条

1 贾自艳;中文智能搜索引擎关键技术研究[D];北京工业大学;2001年

2 杨斌;中文文本数据挖掘研究[D];湘潭大学;2002年

3 邹加棋;中文网页自动分类关键技术研究[D];福州大学;2006年

4 付裕;文本分类方案选择方法及原型系统开发[D];大连理工大学;2006年

5 陈海波;基于自动分词的企业文档搜索引擎设计与实现[D];西北工业大学;2007年

【相似文献】

相关期刊论文 前10条

1 王伟;赵东岩;赵伟;;中文新闻关键事件的主题句识别[J];北京大学学报(自然科学版);2011年05期

2 杨皓东;江凌;李国俊;;国内自然语言处理研究热点分析——基于共词分析[J];图书情报工作;2011年10期

3 刘一宁;;学术定义抽取研究综述[J];情报探索;2011年08期

4 史晓东;卢亚军;;央金藏文分词系统[J];中文信息学报;2011年04期

5 杨撼岳;陈笑蓉;郑高山;;水族文字笔形编码方法研究[J];计算机工程;2011年14期

6 彭成;季培培;;基于确定性退火的中文术语语义层次关联研究[J];计算机应用研究;2011年09期

7 王利鑫;耿焕同;孙凯;张茜;;基于自然语言处理的文本泄密自动检测技术[J];计算机工程与设计;2011年08期

8 安见才让;;藏语句子相似度算法的研究[J];中文信息学报;2011年04期

9 刘兴林;郑启伦;马千里;;中文合成词识别及分词修正[J];计算机应用研究;2011年08期

10 张野;杨建林;;基于KNN和SVM的中文文本自动分类研究[J];情报科学;2011年09期

相关会议论文 前10条

1 孙玉芳;;中文信息处理与国家信息化建设[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年

2 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年

3 由丽萍;刘焘;刘开瑛;;信息处理用中文框架语义知识描述方法研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

4 汪华峰;陈峪;;汉语自然语言理解中词切分中新词问题初探[A];第一届全国语言识别学术报告与展示会论文集[C];1990年

5 冯志伟;;自然语言处理中的理性主义和经验主义[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

6 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

7 支流;朱学锋;段慧明;俞士汶;;中文缩略语还原技术初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

8 郑家恒;谭红叶;王兴义;;基于模式匹配的中文专有名词识别[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

9 葛诗利;陈潇潇;;中国EFL学习者自动作文评分探索[A];第三届学生计算语言学研讨会论文集[C];2006年

10 宋柔;;自然语言处理中语言知识的基础性地位[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

相关重要报纸文章 前10条

1 姚双云 华中师范大学语言与语言教育研究中心;虚词知识库:中文信息处理的基石[N];中国社会科学报;2011年

2 记者 梁捷;我国中文信息处理技术从实验室走向全面应用[N];光明日报;2009年

3 张波 龙雨;中文信息处理国际学术会议在武汉大学召开[N];中国社会科学院院报;2007年

4 记者 韩晓玲邋通讯员 张波 龙雨;海内外专家聚焦中文信息处理[N];湖北日报;2007年

5 胡唯元;文字编码新标准:不再为“名”所累[N];科技日报;2006年

6 许伟;金友兵 破局国外办公套件垄断[N];中国企业报;2008年

7 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年

8 ;浙江天宇信息技术有限公司[N];中国计算机报;2009年

9 ;开天辟地第一回[N];计算机世界;2002年

10 刘洁;SAS分析产品链增添“新成员”[N];科技日报;2008年

相关博士学位论文 前10条

1 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年

2 计峰;自然语言处理中序列标注模型的研究[D];复旦大学;2012年

3 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年

4 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年

5 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年

6 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年

7 方宁;基于认知的文本语境生成和度量研究[D];上海大学;2009年

8 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年

9 杜永萍;基于模式知识库的问题回答关键技术研究[D];复旦大学;2005年

10 王q,

本文编号:2212064


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2212064.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f5067***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com