基于逐点互信息的查询结构分析
[Abstract]:In the Web search engine, the effective analysis of the user's query structure can better understand the user's query intention and promote the improvement of the retrieval effect. In this paper, a simple and efficient query structure analysis method based on point-by-point mutual information is proposed. The method includes an off-line training algorithm based on MapReduce and a bottom-up on-line query tree construction algorithm. Experiments show that this method has a high segmentation speed and can achieve a good comparable segmentation effect. Furthermore, this method can improve the performance of retrieval and improve the performance of MAP,p@5,p@10.
【作者单位】: 中国科学院计算技术研究所;中国科学院研究生院;
【基金】:国家自然科学基金资助项目(60903139,60873243,60933005) 国家863计划重点项目(2010AA012502,2010AA012503)
【分类号】:TP391.3
【参考文献】
相关期刊论文 前1条
1 王思力;王斌;;基于双字耦合度的中文分词交叉歧义处理方法[J];中文信息学报;2007年05期
【共引文献】
相关期刊论文 前7条
1 姚继伟;赵东范;;基于短语匹配的中文分词消歧方法[J];吉林大学学报(理学版);2010年03期
2 乔维;孙茂松;;汉语交集型歧义切分字段关于专业领域的统计特性[J];中文信息学报;2008年04期
3 张禄彭;易绵竹;周云;;中文歧义研究25年——以《中文信息学报》论文为例[J];中文信息学报;2012年04期
4 奉国和;郑伟;;国内中文自动分词技术研究综述[J];图书情报工作;2011年02期
5 魏莎莎;熊海灵;;中文分词中的歧义识别处理策略[J];微计算机信息;2010年30期
6 徐吉;朱兰娟;;用于网络搜索引擎的中文分词消岐算法[J];微型电脑应用;2011年04期
7 胡阿明;王卫东;;中文分词歧义识别算法的优化[J];现代电子技术;2012年08期
相关硕士学位论文 前8条
1 王\~;基于Lucene的同义词扩展检索的研究与实现[D];天津财经大学;2011年
2 谭冬晨;主观题评分算法模型研究[D];电子科技大学;2011年
3 何爱元;基于词典和概率统计的中文分词算法研究[D];辽宁大学;2011年
4 魏博诚;中文分词交集型歧义处理研究[D];安徽大学;2011年
5 邓飞;基于本体的查询扩展研究[D];辽宁科技大学;2011年
6 朱荷香;中文自动文摘系统的研究与实现[D];南京师范大学;2008年
7 曹卫峰;中文分词关键技术研究[D];南京理工大学;2009年
8 陈祥荣;Lucene全文检索技术在专利服务平台中的研究与应用[D];苏州大学;2010年
【二级参考文献】
相关期刊论文 前2条
1 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
2 孙茂松,肖明,邹嘉彦;基于无指导学习策略的无词表条件下的汉语自动分词[J];计算机学报;2004年06期
【相似文献】
相关期刊论文 前10条
1 高升,贾文举,王晓龙,姜亚学;一个基于互信息的规则量化方法[J];计算机研究与发展;2000年08期
2 戴国徽;曹奇英;;汉语发音中多音离合词的读音消歧[J];微计算机信息;2011年03期
3 李涓子,黄昌宁;语言模型中一种改进的最大熵方法及其应用[J];软件学报;1999年03期
4 朱小娟;陈特放;;词频统计中文分词技术的研究[J];仪器仪表用户;2007年03期
5 李中梅,鲍旭东;三维表面与平面数据间的自适应配准[J];计算机工程与应用;2004年23期
6 李卫华,周军,周连文,程英蕾;一种基于互信息和小波分解的图像配准算法[J];计算机工程与应用;2005年33期
7 张国伟;邵世煌;齐金鹏;张颖;;基于信息度量的基因网络建模[J];生物信息学;2006年04期
8 杨春兰;郑链;李晓明;;高阶熵在医学图像配准中的应用研究[J];计算机工程与应用;2007年11期
9 朱冰莲;田学隆;宋维杰;;基于人工免疫系统的医学图像配准[J];仪器仪表学报;2009年07期
10 裘意娜;李均利;金林鹏;;基于概率和引力优化模型的医学图像配准[J];中国生物医学工程学报;2010年03期
相关会议论文 前10条
1 宗仁鹤;朱祥胜;刘良成;曾钢燕;;基于互信息的医学图像配准[A];全国第16届计算机科学与技术应用(CACIS)学术会议论文集[C];2004年
2 王芳;万常选;;基于互信息的中文完整词自动识别模型[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
3 郭志立;;使用互信息辅助在篇章范围内识别命名实体[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 付晓寅;魏玮;徐波;;一种基于状态转移的N元语言模型快速查询方法[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
5 韩中元;李生;杨沐昀;齐浩亮;;面向信息检索的近邻语言模型[A];第六届全国信息检索学术会议论文集[C];2010年
6 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
7 丛日娟;李均利;侯艳芹;陈北京;;窗宽窗位对基于互信息的医学图像配准方法的影响[A];第十三届全国图象图形学学术会议论文集[C];2006年
8 奚宁;赵迎功;汤光超;李斌;罗春勇;戴新宇;陈家骏;;统计机器翻译中多种语言模型的融合[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
9 赵伟;陈承收;李立军;;基于MapReduce云计算模型的碰撞检测算法[A];'2010系统仿真技术及其应用学术会议论文集[C];2010年
10 孙广中;肖锋;熊曦;;MapReduce模型的调度及容错机制研究[A];2007年全国开放式分布与并行计算机学术会议论文集(上册)[C];2007年
相关重要报纸文章 前10条
1 刘琦;MapReduce:亚马逊云服务再添新援[N];中国计算机报;2009年
2 何中军邋米海涛 刘群;统计机器翻译系统中的开源软件[N];计算机世界;2007年
3 中科院计算技术研究所 吕雅娟邋付雷 黄瑾 何中军 刘群;化繁为简的统计机器翻译技术[N];中国计算机报;2007年
4 北京清华大学电子工程系副教授 刘加 教授 刘润生;让机器听懂我的话[N];科技日报;2001年
5 骆卫华 刘群 张俊林;搜索引擎:性能提高遇到瓶颈[N];计算机世界;2006年
6 吕雅娟邋付雷 黄瑾 何中军 刘群;能自动翻译专利文献的翻译系统[N];计算机世界;2007年
7 中国科学院声学研究所研究员 俞铁城;解析语音识别的发展现状[N];通信产业报;2004年
8 熊德意邋何中军 刘群;机器翻译渐行渐近[N];计算机世界;2007年
9 晓亭;神奇的CLM语言模型技术[N];中国教育报;2000年
10 闫宏志;全文翻译技术发展脉络[N];中国计算机报;2003年
相关博士学位论文 前10条
1 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
2 强保华;异构数据库语义集成技术研究[D];重庆大学;2005年
3 杨金宝;基于灰度相似性测度的医学图像配准技术研究[D];山东大学;2008年
4 张桦;场景图像拼接关键技术研究[D];天津大学;2008年
5 赵建平;医学图像处理若干关键问题研究[D];长春理工大学;2008年
6 刘华文;基于信息熵的特征选择算法研究[D];吉林大学;2010年
7 郑春厚;独立分量分析算法及其应用研究[D];中国科学技术大学;2006年
8 胡旺;图像融合中的关键技术研究[D];四川大学;2006年
9 胡顺波;凹函数类测度和医学图像配准技术研究[D];山东大学;2008年
10 陆雪松;聚焦超声治疗系统中的图像非刚性配准算法研究及应用[D];上海交通大学;2008年
相关硕士学位论文 前10条
1 罗h,
本文编号:2421334
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2421334.html