当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于网络查询日志的个人搜索主题分析与探索

发布时间:2020-04-19 01:32
【摘要】:随着互联网的不断发展,搜索引擎使用率越来越高,由此产生的网络查询日志也呈现出爆炸性增长的趋势。网络查询日志蕴含着很多有价值的信息,其中搜索主题就是一种非常有价值的信息。搜索主题在优化搜索引擎和分析用户行为等方面有着重要作用。目前关于搜索主题方面的研究主要是基于整个网络查询日志对所有的用户做主题分析,没有对个人搜索主题情况进行研究。另外,通过现有的网络查询日志session划分的方法得到的划分结果不够精确,无法满足像搜索主题模型这样对session的划分精度要求很高的模型。针对以上问题,本文在前人研究的基础上进行了进一步研究与探索。针对session划分结果不精确问题,本文抽取查询时间间隔、查询项语义相似度和查询项之间的加减词作为特征属性,并采用朴素贝叶斯法对网络查询日志进行高精度session划分。为了对个人搜索主题进行分析,本文结合网络查询日志的特点和词突发现象,构建了两个模型:查询词与URL主题无关的搜索主题模型(TIM)和查询词与URL主题相关的搜索主题模型(TDM),并通过Beta分布描述主题的时间变化趋势。本文工作的创新点如下:第一,本文提出了的可以高精确度划分网络查询日志session的方法——朴素贝叶斯法。该方法通过将session划分问题转化为判断查询项是否为session边界的问题,然后采用朴素贝叶斯算法进行分类。查询项的特征属性有以下三个:session划分的时间间隔、查询项的语义相似度和查询项之间的加减词。为了提高查询项特征属性的可靠性,在计算查询项语义相似度的时候,采用了深度学习中词向量的表示方法,提出了Query2Vector模型,将查询项用向量表示,然后计算余弦相似度。并通过实验证明,本文中提出的session划分方法与目前常用的方法相比更有优势。第二,本文通过研究自然语言处理中的词突发现象,并结合搜索主题模型方面的研究成果,创造了利用网络查询日志中查询词和URL的突发现象获取个人搜索主题的差异的新方法。本文中将网络查询数据按用户id分为不同的文档,这样不同文档中词的突发性就会在主题中显现出来,从而体现不同用户的主题差异性。本文结合网络查询日志的结构特点构建了两个搜索主题模型,查询词与URL主题无关的搜索主题模型(TIM)和查询词与URL主题相关的搜索主题模型(TDM),并通过Beta分布描述主题的时间变化趋势。然后给出了模型的生成过程、推导方法和模型的参数估计方法。最后的实验结果也表明,本文提出的搜索主题模型能够有效地发现个人用户搜索主题的差异,并且与其他搜索主题模型相比具有明显的泛化性能优势。
【图文】:

模型图,概率图,模型,模型符号


LDA的概率图模型

模型图,概率图,模型


DCMLDA的概率图模型
【学位授予单位】:山东财经大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.1

【参考文献】

相关期刊论文 前10条

1 高明;金澈清;钱卫宁;王晓玲;周傲英;;面向微博系统的实时个性化推荐[J];计算机学报;2014年04期

2 万飞;赵溪;梁循;潘登;倪志豪;;基于移动互联网日志的搜索引擎用户行为研究[J];中文信息学报;2014年02期

3 刘健;刘奕群;马少平;张敏;茹立云;张阔;;搜索引擎用户行为与用户满意度的关联研究[J];中文信息学报;2014年01期

4 谭文堂;王桢文;殷风景;葛斌;肖卫东;;一种面向涌现的比较性话题模型[J];国防科技大学学报;2013年04期

5 董志安;吕学强;;基于百度搜索日志的用户行为分析[J];计算机应用与软件;2013年07期

6 姚婷;张敏;刘奕群;马少平;茹立云;;低频查询的用户行为分析和类别研究[J];计算机研究与发展;2012年11期

7 张宇;宋巍;刘挺;李生;;基于URL主题的查询分类方法[J];计算机研究与发展;2012年06期

8 朱玲;聂华;;通过日志挖掘研究图书馆资源发现服务用户的搜索行为[J];现代图书情报技术;2011年12期

9 张晨逸;孙建伶;丁轶群;;基于MB-LDA模型的微博主题挖掘[J];计算机研究与发展;2011年10期

10 徐戈;王厚峰;;自然语言处理中主题模型的发展[J];计算机学报;2011年08期



本文编号:2632775

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2632775.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户50645***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com