基于较高质量扩展源和局部词共现模型的XML查询词扩展
本文关键词:基于较高质量扩展源和局部词共现模型的XML查询词扩展
【摘要】:查询词扩展要解决两个方面的问题:一是扩展词的来源,二是如何在来源集合里挑选扩展词项。对此,首先利用检索结果聚类和排序模型获取了较高质量的相关文档集合,并以此作为扩展源;然后结合XML文档的特点,通过词项间的局部共现特征进行查询扩展。相关实验结果表明,一方面,所采用的检索结果聚类和排序模型的相关文档集扩展源具有较高的用户查询相关性,相比传统的伪反馈扩展源,具有更高的质量;另一方面,提出的结合了XML结构特点的词共现查询扩展方案能获得与用户查询意图相关的扩展信息,与初始查询和无结构的词项扩展方法相比,所提方法能够更有效地提高搜索引擎检索性能。
【作者单位】: 江西财经大学信息管理学院;江西财经大学数据与知识工程江西省高校重点实验室;
【基金】:国家自然科学基金(61173146,61262035,61363039,71361012) 国家社会科学基金(12CTQ042) 江西省教育厅科技项目(GJJ11729,GJJ12734)资助
【分类号】:TP391.3
【正文快照】: 1引言信息检索中查询质量不高的一个很重要的原因就是用户往往不能准确地描述自己的查询意图,使得提交的查询词与真实需求之间存在一定程度的偏差。查询扩展是提高信息检索性能的有效技术手段之一。通常,查询词扩展要解决两个方面的问题:1)扩展词的来源,2)如何在来源集合里挑
【参考文献】
中国期刊全文数据库 前4条
1 蒲强;何大庆;杨国纬;;一种基于统计语义聚类的查询语言模型估计[J];计算机研究与发展;2011年02期
2 丁国栋;白硕;王斌;;一种基于局部共现的查询扩展方法[J];中文信息学报;2006年03期
3 万常选;鲁远;;基于权重查询词的XML结构查询扩展[J];软件学报;2008年10期
4 黄名选;严小卫;张师超;;基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J];软件学报;2009年07期
中国博士学位论文全文数据库 前1条
1 叶正;基于网络挖掘与机器学习技术的相关反馈研究[D];大连理工大学;2011年
【共引文献】
中国期刊全文数据库 前10条
1 王云;黄建;;文本搜索的一种间接方法[J];四川兵工学报;2010年01期
2 王晓春;李慧;;面向教育的垂直搜索引擎框架及其应用[J];电化教育研究;2011年09期
3 黄子越;万常选;;XML检索中基于聚类的查询词扩展[J];电子科技大学学报;2009年S1期
4 李卫疆;赵铁军;王宪刚;;基于统计机器翻译模型的查询扩展[J];电子与信息学报;2008年03期
5 姚冬磊;赵晓鹏;卫耀伟;;同义词挖掘及表示研究[J];福建电脑;2010年03期
6 李卫疆;;A new approach to query expansion in information retrieval[J];High Technology Letters;2008年01期
7 刘茂福;周斌;胡慧君;陈建勋;;问答系统中基于维基百科的问题扩展技术研究[J];工业控制计算机;2012年09期
8 李力沛;罗颖;;基于个性化词典的搜索引擎查询扩展模型[J];电脑知识与技术;2012年28期
9 李力沛;罗颖;;基于修正TF-IDF的搜索引擎查询扩展模型[J];福建电脑;2012年10期
10 李卫疆;赵铁军;王宪刚;;基于上下文的查询扩展[J];计算机研究与发展;2010年02期
中国重要会议论文全文数据库 前10条
1 黄名选;严小卫;张师超;;基于完全加权关联规则挖掘的信息检索模型[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 林建方;李生;郑德权;;基于词语搭配关系的查询扩展方法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
3 晋松;林鸿飞;苏绥;;基于标签共现的查询扩展研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
4 黄名选;;基于正负关联规则挖掘的局部反馈查询扩展[A];第六届全国信息检索学术会议论文集[C];2010年
5 周斌;刘茂福;陈建勋;;IR4QA系统中基于维基百科的查询扩展[A];第五届全国青年计算语言学研讨会论文集[C];2010年
6 刘喜平;万常选;刘德喜;;有效的XML模糊内容与结构检索和计分[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
7 刘德喜;万常选;刘喜平;焦贤沛;;XML检索中的标签权重设置模型[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
8 张志强;孟庆海;谢晓芹;;个性化的社会标签查询扩展技术研究[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
9 钟敏娟;万常选;;基于伪反馈的XML查询扩展[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
10 温馨;王鹏;李少亮;郭文琪;陈群;娄颖;;基于关键字的XML信息检索反馈技术的研究[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
中国博士学位论文全文数据库 前10条
1 李强;数据挖掘中关联分析算法研究[D];哈尔滨工程大学;2010年
2 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
3 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年
4 高雅田;基于MAS的数据挖掘模型自动选择方法研究[D];东北石油大学;2011年
5 王让;KPI模式下海工装备项目总进度偏差成因与数据挖掘[D];哈尔滨工程大学;2011年
6 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
7 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
8 刘海学;基于语义标注的元数据自动构建及其相关技术研究[D];华东师范大学;2010年
9 蒲强;基于独立分量分析的语义聚类技术在信息检索中的应用研究[D];电子科技大学;2010年
10 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
中国硕士学位论文全文数据库 前10条
1 孟庆海;基于社会书签的个性化查询词扩展技术研究[D];哈尔滨工程大学;2010年
2 晋松;基于社会化标注的查询扩展技术研究[D];大连理工大学;2010年
3 杨海南;基于语义词典和局部分析的查询扩展研究[D];武汉理工大学;2010年
4 吕桃霞;基于Agent技术的网络安全审计模型研究与实现[D];山东师范大学;2011年
5 李彦伟;基于关联规则的数据挖掘方法研究[D];江南大学;2011年
6 周源;基于本体的语义垂直搜索引擎研究[D];北京交通大学;2011年
7 辛强;基于共现距离与查询扩展的蒙古文信息检索系统[D];内蒙古大学;2011年
8 颜婷;基于本体的语义搜索技术研究与实现[D];杭州师范大学;2011年
9 吕海红;基于MOSS的异源实体关联方法研究[D];燕山大学;2010年
10 解玉洁;基于树结构的精简序列模式挖掘算法研究[D];燕山大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 曲卫民,张俊林,孙乐;基于主题的汉语语言模型的研究[J];计算机研究与发展;2003年09期
2 谭义红,林亚平;向量空间模型中完全加权关联规则的挖掘[J];计算机工程与应用;2003年13期
3 王志军,于超;基于隐式反馈的个人信息检索技术及实现[J];计算机工程;2003年06期
4 黄名选;严小卫;张师超;;查询扩展技术进展与展望[J];计算机应用与软件;2007年11期
5 李小华;;一种带反馈的XML信息检索系统设计与研究[J];厦门理工学院学报;2006年01期
6 吕碧波;赵军;;基于相关文档池建模的查询扩展[J];中文信息学报;2006年03期
7 丁国栋;白硕;王斌;;一种基于局部共现的查询扩展方法[J];中文信息学报;2006年03期
8 刘绍翰,武港山,张福炎;基于词条权值的相关反馈算法在Web信息检索中的应用[J];情报学报;2002年06期
9 李剑波,李小华;基于XML的反馈式信息检索系统研究[J];情报杂志;2005年10期
10 黄萱菁,夏迎炬,吴立德;基于向量空间模型的文本过滤系统[J];软件学报;2003年03期
【相似文献】
中国期刊全文数据库 前10条
1 耿焕同,陈少军;一种基于传统VSM和词共现概念的中文文本聚类的研究[J];安徽师范大学学报(自然科学版);2005年01期
2 吴光远,何丕廉,曹桂宏,聂颂;基于向量空间模型的词共现研究及其在文本分类中的应用[J];计算机应用;2003年S1期
3 满堂喝彩;;用千千静听制作高质量MP3[J];电脑迷;2006年07期
4 李天铎;快速高质量开发附件[J];管理科学文摘;1998年11期
5 ;世界最先进的网格生成系统GridPro进入中国[J];航空动力学报;2009年05期
6 常鹏;马辉;;高效的短文本主题词抽取方法[J];计算机工程与应用;2011年20期
7 张婷慧;耿焕同;蔡庆生;;一种改进的VSM及其在文本自动分类中的应用[J];微电子学与计算机;2005年12期
8 ;Borland生命周期质量管理方案增强IT推出高质量软件能力[J];电脑编程技巧与维护;2006年12期
9 曹恬;周丽;张国煊;;一种基于词共现的文本相似度计算[J];计算机工程与科学;2007年03期
10 朱松;高艳萍;;用于信息检索的贝叶斯网络模型扩展[J];内蒙古科技与经济;2009年22期
中国重要会议论文全文数据库 前10条
1 Raimund Parzmair;荆德君;;高温产品的标记和跟踪[A];1999中国钢铁年会论文集(上)[C];1999年
2 杨小冬;唐仲华;黄腾;;基于Java3D的高质量虚拟地形漫游实现[A];第四届海峡两岸GIS发展研讨会暨中国GIS协会第十届年会论文集[C];2006年
3 俞舸;齐士钤;张家录;;汉语语音综合资料库录音技术[A];第四届全国人机语音通讯学术会议论文集[C];1996年
4 李斌;;对CUJA数据质量及系统软件的几点建议[A];外向型文献库的数据质量控制——首届CUJA系统学术讨论会论文集[C];1990年
5 王膺权;;强化CUJA数据库的质量意识[A];外向型文献库的数据质量控制——首届CUJA系统学术讨论会论文集[C];1990年
6 ;典藏藉数字化嘉惠学林 汉字又在手机展现异彩[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
7 刘君强;顾海全;王讯;李荣;;基于开源框架的高质量J2EE应用架构[A];促进企业信息化进程——第九届中国Java技术及应用交流大会文集[C];2006年
8 王飞跃;;我的教学梦[A];新观点新学说学术沙龙文集7:教育创新与创新人才培养[C];2007年
9 王秉卿;黄萱菁;;基于线性模型的查询扩展方法[A];第五届全国信息检索学术会议论文集[C];2009年
10 赵鑫;解梅;;基于DSP的虹膜识别系统[A];第七届全国信息获取与处理学术会议论文集[C];2009年
中国重要报纸全文数据库 前10条
1 贾靖峰;找钱也要探究“和谐”[N];经理日报;2007年
2 王兴山;中国企业资源计划之路怎样走[N];金融时报;2006年
3 ;UPS厂商发力中小企业信息化市场[N];人民邮电;2007年
4 李媛;走在客户需求之前[N];中国经营报;2008年
5 袁晓静 高振平 鲁元魁;编写高质量的PB应用程序(上)[N];计算机世界;2002年
6 袁晓静 高振平 鲁元魁;编写高质量的PB应用程序(下)[N];计算机世界;2002年
7 本报记者 瑜文;Silverlight:Web革命静悄悄[N];中国电脑教育报;2007年
8 本报记者;甲骨文公司落户福州[N];福建科技报;2007年
9 本报记者 赵海军;国产软件厂商破局有望[N];中国计算机报;2008年
10 本报记者 侯玉邋通讯员 肖丽;中国服务外包产业升级之路[N];国际商报;2008年
中国博士学位论文全文数据库 前9条
1 常鹏;基于词共现的文本主题挖掘模型和算法研究[D];天津大学;2010年
2 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年
3 周迪斌;基于纹理的高质量矢量可视化研究[D];浙江大学;2008年
4 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
5 郑杰;基于GPU的高质量交互式可视化技术研究[D];西安电子科技大学;2007年
6 管宇;图像和视频的便捷抠图技术研究[D];浙江大学;2008年
7 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
8 张英朝;基于全局视图的虚拟组织信息共享方法与应用研究[D];国防科学技术大学;2004年
9 陈毅恒;文本检索结果聚类及类别标签抽取技术研究[D];哈尔滨工业大学;2010年
中国硕士学位论文全文数据库 前10条
1 赵祥重;基于词共现的语言模型信息检索方法研究[D];哈尔滨工程大学;2013年
2 侯小可;微博新闻话题的情感分析研究[D];华北电力大学;2013年
3 张勇智;ITS中高质量视频的获取及其在车辆压黄线违章检测中的应用[D];西安电子科技大学;2005年
4 尹倩;基于聚类分析的中文新闻网页关键词提取方法研究[D];合肥工业大学;2009年
5 李星华;中英文新闻网页关键词抽取技术研究[D];合肥工业大学;2009年
6 冯运;信息检索中的查询算法研究[D];湖南大学;2007年
7 陈少明;基于用户行为与本体的查询词扩展研究[D];西华大学;2010年
8 吴春龙;宋词风格的计算机辅助分析研究[D];厦门大学;2008年
9 梅筱;视频特征及其描述词汇的对齐研究[D];北京邮电大学;2011年
10 唐守忠;文本挖掘关键技术研究[D];北京林业大学;2013年
,本文编号:1197301
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1197301.html