当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于兴趣点简称的检索方法研究

发布时间:2019-04-13 17:55
【摘要】:提出了一种基于统计方法和分词的匹配模型,该模型能够根据简称找出最可能的全称。这一模型由三个部分组成:针对不同类别的全称,对兴趣点全称进行分类,将全称划分成机构、公司、行业、区域和未知五类单词;把单词按照长度分为六类,然后在此基础上建立隐马尔可夫统计模型;在越频繁使用的全称越有可能产生简称的假设下,建立一个流行度统计模型。实验表明上述模型的首选准确率达到近85%,比现有搜索引擎的匹配能力有了显著的提高。
[Abstract]:In this paper, a matching model based on statistical method and participle is proposed, which can find the most likely full name according to the abbreviation. The model consists of three parts: for different categories of full names, the full term of interest point is classified into five types of words: organization, company, industry, region and unknown; The words are divided into six categories according to their length, and then a hidden Markov statistical model is established on the basis of which a statistical model of popularity is established under the assumption that the more frequently used full names are more likely to produce abbreviations, the more frequent they are used, the more likely they are to produce abbreviations. The experimental results show that the first choice accuracy of the model is nearly 85%, which is significantly higher than the matching ability of the existing search engines.
【作者单位】: 北京大学遥感与地理信息研究所空间智能计算实验室;
【基金】:国家重点研究基础发展规划(973)项目(2006CB70130000)
【分类号】:TP391.3

【参考文献】

相关期刊论文 前3条

1 吴栋,滕育平;中文信息检索引擎中的分词与检索技术[J];计算机应用;2004年07期

2 王宁,葛瑞芳,苑春法,黄锦辉,李文捷;中文金融新闻中公司名的识别[J];中文信息学报;2002年02期

3 钟良伍;郑方;;基于中文机构名简称的检索方法研究[J];中文信息学报;2007年01期

【共引文献】

相关期刊论文 前10条

1 邵晶,党海峰,白慧先,郑庆华;OPAC资源与网络教育资源共享集成关键技术研究[J];大学图书馆学报;2005年03期

2 蔡勇智;基于最大匹配分词算法的中文词语粗分模型[J];福建电脑;2005年09期

3 谢春发;中文智能搜索引擎的研究与探讨[J];河北广播电视大学学报;2005年04期

4 庄明,老松杨,吴玲达;一种统计和词性相结合的命名实体发现方法[J];计算机应用;2004年01期

5 肖红;许少华;李欣;;具有三级索引词库结构的中文分词方法研究[J];计算机应用研究;2006年08期

6 钟良伍;郑方;;基于中文机构名简称的检索方法研究[J];中文信息学报;2007年01期

7 方冰;张一中;;高性能FTP搜索引擎的设计[J];南京邮电大学学报(自然科学版);2007年03期

8 唐培丽;胡明;解飞;刘钢;;全文检索搜索引擎中文信息处理技术研究[J];情报科学;2006年06期

9 郭一平;向晖;王亮;;基于Lucene的Ftp搜索引擎的设计[J];图书情报工作;2006年04期

10 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[J];通信学报;2006年02期

相关会议论文 前9条

1 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年

2 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

3 俞鸿魁;张华平;刘群;;基于角色标注的中文机构名识别[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年

4 李斌;;中文单字国名简称的自动识别[A];第二届全国学生计算语言学研讨会论文集[C];2004年

5 乔春庚;肖诗斌;孙丽华;施水才;;规则与统计相结合的案件名称识别[A];第三届学生计算语言学研讨会论文集[C];2006年

6 郑家恒;谭红叶;王兴义;;基于模式匹配的中文专有名词识别[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

7 陈慧;张普;;基于DCC动态流通语料库的中文组织名监测与研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

8 徐薇;付滨;刘柳;苑春法;李文捷;;中文命名实体识别系统的领域扩展[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

9 王虎;王潜平;;对整词二分自动分词机制的改进[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年

相关博士学位论文 前2条

1 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年

2 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年

相关硕士学位论文 前10条

1 张艳丽;中文机构名称的自动识别[D];大连理工大学;2003年

2 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年

3 庄明;装备发展战略研究信息化平台中汉语文本信息提取技术的研究[D];国防科学技术大学;2003年

4 王军;中文搜索引擎的设计与实现[D];华中科技大学;2004年

5 王兴义;基于模式匹配的中文专有名词识别[D];山西大学;2005年

6 王江伟;基于最大熵模型的中文命名实体识别[D];南京理工大学;2005年

7 吴雪军;面向信息抽取的命名实体识别与模板获取技术研究[D];东北大学;2005年

8 朱军;中文垃圾邮件过滤技术研究及应用[D];合肥工业大学;2005年

9 崔飞虎;一种多Agent的个性化信息检索系统的研究与设计[D];中国人民解放军信息工程大学;2005年

10 张晓淼;基于神经网络的中文分词算法的研究[D];大连理工大学;2006年

【二级参考文献】

相关期刊论文 前4条

1 严威,赵政;开发中文搜索引擎汉语处理的关键技术[J];计算机工程;1999年06期

2 王宁,葛瑞芳,苑春法,黄锦辉,李文捷;中文金融新闻中公司名的识别[J];中文信息学报;2002年02期

3 张小衡,王玲玲;中文机构名称的识别与分析[J];中文信息学报;1997年04期

4 王科,高常波,翟雪峰,罗万伯;汉语分词的主要技术及其应用展望[J];通信技术;2003年06期

相关会议论文 前2条

1 张艳丽;黄德根;张丽静;杨元生;;统计和规则相结合的中文机构名称识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年

2 雷静;;汉语机构名的构成模式[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

【相似文献】

相关期刊论文 前10条

1 ;中国微生物学会常务理事扩大会在北京召开[J];微生物学通报;1980年06期

2 鱼际元;;“感光材料专业外文文献查阅”补遗[J];影像材料;1980年01期

3 马丁;;漫画慢画——讽刺剧[J];新闻战线;1980年04期

4 左民安;;《说文解字·叙》标点商榷[J];学术月刊;1980年08期

5 刘士钊;;德温特公司的专利检索刊物[J];情报科学;1980年01期

6 ;小辞典[J];中国档案;1980年02期

7 伍同;;新型修裱浆糊——羧甲基纤维素[J];中国档案;1980年05期

8 朱伯深;;红中社之前的中国工人通讯社[J];新闻与传播研究;1980年02期

9 华湘翰;介绍《美国化学文摘》查阅法[J];现代化工;1981年05期

10 朱开发;用万用表检查双向可控硅的方法[J];广播与电视技术;1981年01期

相关重要报纸文章 前6条

1 廖波;“贵轮”公司简称打败注册商标[N];商务时报;2009年

2 本报记者 张恒瑞;高校简称起争议 商标注册谁更当之无愧?[N];中国消费者报;2009年

3 本报记者 吴晓婧;证监会规范基金命名 新简称已启用[N];上海证券报;2009年

4 杨沛洁 杨跃彬;中平能化集团成为企业法定简称[N];平顶山日报;2009年

5 本报记者 张恒瑞;专家呼吁:企业不应忽视品牌简称保护[N];中国消费者报;2009年

6 记者 韩劲松;市政府工作机构及简称公布[N];济南日报;2010年



本文编号:2457801

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2457801.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户397d5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com