搜索引擎查询日志的词性标注和挖掘研究
本文选题:日志挖掘 切入点:词性标注 出处:《现代图书情报技术》2009年04期
【摘要】:利用搜狗(Sogou)2007年3月的查询日志,使用词性标注方法,得出高频词性标注结果的分布特征。发现用户在查询中以使用名词为主,动词为辅,鲜有其它词类出现在高频词性标注结果中。以"的"为代表的虚词较少地出现在高频词性标注结果中。网络搜索的查询式与自然语言在句法上存在一定差异,但也有相通之处。用户主要使用名词进行概念性检索,关键词仍为用户进行检索的主要手段。高频词性标注结果部分符合Zipf定律。
[Abstract]:Use Sogou (Sogou) March 2007 query log, using POS annotation method, obtains the high frequency distribution characteristics of POS tagging results. Users found in the query to use nouns, verbs as few other lexical category appear in the high frequency part of speech tagging results in fewer words. "" as the representative to appear in the high frequency part of speech tagging results in web search query. And there are some differences in natural language syntax, but there are also similarities. The main concept of user retrieval using a noun, is still the main method for user keyword retrieval. The high frequency part of speech tagging results according to Zipf law.
【作者单位】: 北京大学信息管理系;
【分类号】:TP391.1
【参考文献】
相关期刊论文 前1条
1 郭岩,白硕,杨志峰,张凯;网络日志规模分析和用户兴趣挖掘[J];计算机学报;2005年09期
【共引文献】
相关期刊论文 前4条
1 吕佳;;Web日志挖掘技术应用研究[J];重庆师范大学学报(自然科学版);2006年04期
2 邢玲;马建国;李幼平;刘志文;;一种基于UCL的中文网页信息过滤方法[J];电子学报;2006年10期
3 杨明花;古志民;;基于兴趣特征的WUM数据预处理方法[J];计算机应用;2006年10期
4 彭文辉;杨宗凯;黄克斌;;网络学习行为分析及其模型研究[J];中国电化教育;2006年10期
相关硕士学位论文 前7条
1 黄克斌;网络学习行为及其分析系统研究[D];华中师范大学;2006年
2 吕佳;基于人工免疫系统的Web日志挖掘应用研究[D];重庆大学;2006年
3 宋爱美;Web访问模式发现与应用研究[D];山东科技大学;2006年
4 乔良;基于马尔科夫模型的用户浏览路径预测研究[D];燕山大学;2007年
5 黎慧娟;校园网用户行为的分析与研究[D];广西大学;2007年
6 习慧丹;基于概念格的Web日志挖掘的研究[D];中南大学;2007年
7 陈祖琴;基于数据挖掘的引文分析[D];西南大学;2008年
【二级参考文献】
相关期刊论文 前4条
1 王继民,陈,
本文编号:1700956
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1700956.html