网络日志挖掘及其在查询理解中的应用研究
[Abstract]:Query recommendation system is a very important technology in modern search engine system. This technology recommends query words that are more in line with the needs of users in order to improve the search experience of users. At present, many methods cluster query words by calculating the similarity between user query words, and then recommend the query words in the cluster according to a certain strategy, in which the attribute information implied between query words is not taken into account. Because of the lack of some auxiliary information in the similarity calculation method of query words, only the historical click behavior of users is considered in the recommendation process. In order to solve the above problems, this paper uses network query log and encyclopedia as the data to construct attribute knowledge base, and constructs a query recommendation system based on attribute knowledge base. By extracting the attribute knowledge of human name entities in query log and entity attribute knowledge in encyclopedia, the name knowledge base containing attribute knowledge is formed. According to the high quality attribute rules and statistical classification methods, the entities in the knowledge base are classified, and the named entities are effectively recommended based on different character classification knowledge bases. The main innovations of this paper are as follows: according to the established character attribute knowledge base, the high quality character classification rules are formulated, and the unmarked character entities are classified, in which the entity is classified and marked based on the results returned by the search engine. A classification algorithm of human name entities based on the degree of information coincidence is proposed. This method is a probability and statistical classification algorithm, which is a supplement to the rule-based classification method and can effectively solve the defect of low recall rate of the rule-based classification algorithm. In this paper, a cluster-based user interest model is proposed. By training the data, it has the function of query recommendation, and the query can be recommended to the user according to the user's interest. The experimental results show that the accuracy and recall rate of the classification algorithm based on rule plus statistics are higher than those based only on rules or statistics. Compared with the traditional query recommendation system, the cluster-based user interest model recommendation method can improve the accuracy and better reflect the real query intention of the user.
【学位授予单位】:北方工业大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 陶剑文;;基于Agent的Web日志挖掘系统模型研究[J];微计算机应用;2006年03期
2 白青伟;;"军卫一号"日志挖掘技术[J];医学信息;2007年11期
3 程其江;吕述望;;关联规则在WAP增值业务日志挖掘中的应用[J];计算机应用;2008年S1期
4 丁兴华;陈俊杰;;基于主成分分析法的Web页面推荐算法[J];电脑开发与应用;2009年07期
5 张大雷;;基于日志的网络管理系统的设计与实现[J];电信快报;2009年10期
6 王媛媛;钟永恒;;基于SQL Server 2005的Web日志挖掘系统构建[J];现代图书情报技术;2006年05期
7 朱有存;罗丹;王梅;;“军卫一号”日志挖掘技术[J];医疗卫生装备;2006年08期
8 马玉妍;韩志;;数字图书馆用户使用信息挖掘与应用[J];图书馆理论与实践;2007年02期
9 雷萍;吕英华;余阳;;基于数据挖掘的工作流过程优化研究[J];中山大学学报论丛;2007年02期
10 隆功伦;席光文;;基于关联规则的虚拟主机网站日志挖掘[J];重庆文理学院学报(自然科学版);2007年04期
相关会议论文 前10条
1 蔡丽萍;李茂青;;一种基于模糊聚类的日志挖掘方法及应用[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
2 周莉;张勇;邢春晓;;ULMF:一种基于构件的通用日志挖掘框架[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
3 孙云山;张立毅;李艳琴;;基于模糊分类器的PAM盲均衡算法[A];四川省通信学会2005年学术年会论文集[C];2005年
4 王军;宋宝燕;于戈;;一种Web日志挖掘数据预处理方法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
5 刘艳民;;中文网页分类方法的研究[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
6 李晓波;;集成分类对比:Bagging NB & Boosting NB[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
7 邢延铭;诸克军;李春平;;一种基于遗传算法和模糊规则的分类算法[A];科学发展观与系统工程——中国系统工程学会第十四届学术年会论文集[C];2006年
8 王毅军;张志广;李勇;高小榕;高上凯;杨福生;;2003年脑机接口数据竞赛论文之一——基于CSSD和FDA的单次手指运动诱发脑电分类算法[A];首届全国功能神经影像学和神经信息学研讨会论文汇编[C];2003年
9 傅言;郭振华;李乃民;;基于图像分析的中医色诊及在肝病上的研究[A];第一届全国中西医结合诊断学术会议论文选集[C];2006年
10 尧德中;廖祥;;基于支持向量机的脑电模式分类技术研究[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年
相关重要报纸文章 前10条
1 ;SecuiWALL独创分类算法[N];计算机世界;2002年
2 商报实习记者 张绪旺;破解10亿人名准确拼写之谜[N];北京商报;2010年
3 俞路石;中科大研究生解决网络数据包有效分类算法[N];中国教育报;2007年
4 江舒;藏族人名汉字音译将有规可循[N];西部时报;2010年
5 玉珍 彭雪芳 纳日碧力戈 (作者单位:中国社科院民研究;人名社会学:时下取名风尚三人谈[N];北京日报;2000年
6 王泉根;谈谈人名文化[N];大众科技报;2000年
7 ;锐捷RG-WALL系列防火墙[N];电脑商报;2004年
8 张宏立;图报复毁人名誉 因侵权被判赔偿[N];人民法院报;2001年
9 符向军;法律面前,名人,也只是个人名[N];人民法院报;2011年
10 中国科学院东北地理与农业生态研究所 李建平;保护地球之肾 遥感体检湿地健康[N];中国水利报;2008年
相关博士学位论文 前10条
1 朱鲲鹏;基于Web日志挖掘的智能信息检索研究[D];哈尔滨工业大学;2009年
2 王彤;数据挖掘的新技术研究[D];天津大学;2007年
3 范举;关键词查询的推荐技术研究[D];清华大学;2012年
4 刘刚;数据挖掘技术与分类算法研究[D];中国人民解放军信息工程大学;2004年
5 贾银山;支持向量机算法及其在网络入侵检测中的应用[D];大连海事大学;2004年
6 吴广潮;基于聚类特征树的大规模分类算法研究[D];华南理工大学;2012年
7 骆成凤;中国土地覆盖分类与变化监测遥感研究[D];中国科学院研究生院(遥感应用研究所);2005年
8 钱晓东;基于神经网络等技术的数据与文本聚分类研究[D];天津大学;2005年
9 董一鸿;动态数据库增量式挖掘算法及其应用的研究[D];浙江大学;2007年
10 唐勤;非均衡数据分类算法及其在助学贷款风险管理中的应用研究[D];华中科技大学;2012年
相关硕士学位论文 前10条
1 徐骥超;网络日志挖掘及其在查询理解中的应用研究[D];北方工业大学;2013年
2 宁兴旺;基于日志挖掘的网络安全审计系统研究与实现[D];山东师范大学;2010年
3 桂辉;WEB日志挖掘在网站推荐服务中的应用研究[D];华北电力大学(北京);2011年
4 史振华;基于Web日志挖掘的网站优化技术与应用[D];武汉理工大学;2010年
5 杨鹏;Web日志挖掘数据预处理算法研究与实现[D];北京邮电大学;2011年
6 刘宇婷;基于Web日志挖掘的个性化服务研究与应用[D];北京理工大学;2010年
7 程苗;云计算技术在web日志挖掘中的应用研究[D];中国科学技术大学;2011年
8 赵伟;基于Web日志的用户访问模式挖掘[D];天津大学;2004年
9 孙赵平;基于关联规则的web日志挖掘应用研究[D];安徽大学;2010年
10 韩莉;基于概念格的Web使用日志挖掘及其在个人化技术中的应用[D];安徽大学;2003年
,本文编号:2499596
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2499596.html