基于决策树技术的个性化服务Agent
本文选题:搜索引擎 + 个性化服务 ; 参考:《微电子学与计算机》2006年03期
【摘要】:文章采用了机器学习技术,从提交更精确地反映用户兴趣的检索串入手,研究如何提高搜索引擎查准率。文中采用决策树方法进行学习,对决策树方法应用于网页检索中出现的几个问题:缺少属性值的训练实例处理问题;如何使不同权值的属性,具有不同的表现力问题;树的重建问题;过度拟合问题;扩充检索串返回的网页时,属性值的取舍问题等进行了分析和研究,给出了具体的解决方法。性能提高后的决策树,用验证集检验,正确率由70%提高到75.4%,较好地学习到了用户的兴趣。
[Abstract]:This paper uses machine learning technology to study how to improve the precision of search engine by submitting a more accurate retrieval string that reflects the user's interest. In this paper, the decision tree method is used to study several problems that appear in the application of decision tree method in web search: how to deal with the problem of lack of attribute value training example, how to make the attribute of different weight value have different expressive power, and how to make the attribute of different weight value have different expressive power. Tree reconstruction problem, over-fitting problem, extended search string return page, attribute value selection problem are analyzed and studied, and specific solutions are given. The accuracy of the improved decision tree is improved from 70% to 75.4%, and the user's interest is well studied.
【作者单位】: 广东工业大学自动化学院 广东工业大学自动化学院
【基金】:广东省自然科学基金资助(970237)
【分类号】:TP18
【参考文献】
相关期刊论文 前1条
1 陈红英,杨宜民,毛革非;基于Agent的用户兴趣学习算法及其实现[J];计算机工程;2004年06期
【共引文献】
相关期刊论文 前10条
1 姚克娟,李晋宏;应用Agent技术实现个性化信息服务[J];北方工业大学学报;2004年03期
2 钟茂生;廖辉传;谢勇;;面向用户兴趣的Web信息过滤系统[J];广西师范大学学报(自然科学版);2006年04期
3 周生明;廖元秀;;Cost-Sensitive学习的一个新课题[J];广西师范大学学报(自然科学版);2007年04期
4 廖元秀;周生明;;误差在Cost-Sensitive分类中的应用[J];广西师范大学学报(自然科学版);2011年02期
5 ;Information entropy for ordinal classification[J];Science China(Information Sciences);2010年06期
6 龙舜;钟衍凡;蔡建华;王会进;;ABLE中的决策树算法的模糊因子改进方法[J];暨南大学学报(自然科学版);2008年01期
7 刘星毅;;基于性价比的分裂属性选择方法[J];计算机应用;2009年03期
8 武永成;;一种新的代价敏感分类方法[J];计算机与现代化;2009年03期
9 John Durkin,蔡竞峰,蔡自兴;决策树技术及其当前研究方向[J];控制工程;2005年01期
10 袁鼎荣;张师超;朱晓峰;张晨;;基于相对等待时间的代价敏感决策树[J];计算机科学与探索;2007年03期
相关会议论文 前3条
1 陆晨;彭怡;李友元;寇纲;;基于分类与TOPSIS方法预测公司审计变更[A];经济全球化与系统工程——中国系统工程学会第16届学术年会论文集[C];2010年
2 韩松来;张辉;周华平;;决策树算法中多值偏向问题的理论分析[A];全国自动化新技术学术交流会会议论文集(一)[C];2005年
3 顿毅杰;张小峰;张永;;基于不可分辨关系的分类规则算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
相关博士学位论文 前10条
1 黄静华;支持向量机算法研究及在气象数据挖掘中的应用[D];中国矿业大学(北京);2011年
2 陈晓林;基于动态代价敏感的机器学习研究[D];华中科技大学;2010年
3 严志永;在划分数据空间的视角下基于决策边界的分类器研究[D];浙江大学;2011年
4 邵华;基于决策树的海量时序不均衡数据下预测系统的研究[D];东北大学;2005年
5 牛晓太;多模式智能谈判支持系统的理论与方法研究[D];武汉大学;2004年
6 郑恩辉;基于支持向量机的代价敏感数据挖掘研究与应用[D];浙江大学;2006年
7 王曙燕;医学图像智能分类算法研究[D];西北大学;2006年
8 王庆;RH-KTB真空系统智能故障诊断[D];东北大学;2004年
9 王中;数据挖掘技术及其在证券领域的应用[D];天津大学;2005年
10 赵立权;粒度计算的模型研究[D];安徽大学;2007年
相关硕士学位论文 前10条
1 周翔;决策支持技术在企业销售系统中的应用研究[D];中国海洋大学;2010年
2 牛为秋;基于粗糙集的决策树分类算法[D];西安电子科技大学;2010年
3 王佳杰;基于信息熵的决策树算法研究及在肺病住院费用分析中的应用[D];长春理工大学;2011年
4 俞安琪;仿真数据并行分布式挖掘算法研究[D];哈尔滨工业大学;2011年
5 王鹏;数据挖掘在高校困难生认定中的应用研究[D];东北师范大学;2011年
6 邵坤;Web数据库查询结果个性化分类方法研究[D];东北大学;2009年
7 杨宏伟;基于层次分解思想的决策树[D];河北大学;2003年
8 赵明华;模糊决策树产生过程中参数的敏感性分析[D];河北大学;2003年
9 吴宣为;示例学习的决策树算法研究[D];合肥工业大学;2004年
10 尤众喜;无边界学习及其支持和引导研究[D];华东师范大学;2005年
【二级参考文献】
相关期刊论文 前2条
1 陈红英,李卫华;智能信息Agent的研究和实现[J];计算机工程与应用;2002年12期
2 陈红英,李卫华,毛革非;智能过滤Agent在Internet上的应用[J];计算机工程;2002年03期
【相似文献】
相关期刊论文 前10条
1 王萍;刘军;姚笑秋;;基于小型搜索引擎的个性化策略研究[J];计算机技术与发展;2007年11期
2 黄X;林旭云;;基于个性化信息服务技术的研究[J];大众科技;2006年02期
3 杨锦;;个性化搜索引擎应用于数字图书馆信息服务系统[J];平原大学学报;2007年06期
4 付晓翠;许盈;;基于Web数据挖掘的个性化搜索引擎研究综述[J];现代计算机(专业版);2008年03期
5 宋国柱;陈俊杰;;基于Agent的个性化搜索引擎关键技术研究[J];山西农业大学学报(自然科学版);2007年03期
6 邹芳红;;Web数据挖掘与个性化搜索引擎综述[J];计算机与现代化;2007年08期
7 许旌莹;;决策树算法在图书馆个性化服务中的应用研究[J];科技信息;2011年14期
8 傅晓岚;;基于Agent个性化智能检索技术[J];农业网络信息;2008年11期
9 许东民;任宇;王以伍;;基于个性化服务的医学数字图书馆的研究与设计[J];成都医学院学报;2007年02期
10 丁兆贵;金敏;;基于Lucene的个性化搜索引擎研究与实现[J];计算机技术与发展;2011年02期
相关会议论文 前10条
1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
2 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
3 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
4 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 ;《长城》个性化服务专用邮票发行 全国青少年“纪念中国人民抗日战争暨世界反法西斯战争胜利六十周年知识竞答活动”同时启动[A];万里长城暨中国长城学会优秀文集[C];2005年
6 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
7 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
8 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
9 张望;王辉;;个性化服务中的并行K-Means聚类算法[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年
10 刘建西;;公共图书馆个性化服务创新的几点思考[A];福建省图书馆学会2007年学术年会论文集[C];2007年
相关重要报纸文章 前10条
1 赛迪顾问股份有限公司 互联网与电子商务咨询中心 常燕杰 ;Google微软中国搜索市场遇阻击[N];中国计算机报;2006年
2 李一鑫;搜索排名的红与黑[N];财经时报;2007年
3 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
4 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
5 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,,还是门户[N];中国计算机报;2005年
6 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
7 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
8 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
9 本报记者 赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
10 孙t;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
相关博士学位论文 前10条
1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
7 王昤璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
9 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
10 张智雄;Internet科技信息资源门户网站(STIP)系统的实践研究[D];中国科学院文献情报中心;2000年
相关硕士学位论文 前10条
1 史锦荣;基于多Agent智能搜索引擎模型研究[D];太原理工大学;2005年
2 李明浩;基于搜索引擎和数据挖掘的个性化web信息服务[D];吉林大学;2008年
3 张园园;基于用户兴趣的个性化搜索引擎的分析与研究[D];燕山大学;2006年
4 王海腾;基于多Agent的搜索引擎优化研究[D];哈尔滨工业大学;2007年
5 杨光伟;基于Lucene的个性化搜索引擎的研究与实现[D];内蒙古大学;2009年
6 李连江;个性化搜索引擎模型的研究与改进[D];哈尔滨工程大学;2008年
7 冯周;基于模糊信息处理的个性化文件搜索引擎算法研究与实现[D];电子科技大学;2007年
8 杨献峰;搜索引擎个性化检索技术的研究[D];中国石油大学;2007年
9 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年
10 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年
本文编号:1927304
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1927304.html