一种大规模中文搜索日志的层次聚类方法
本文选题:搜索引擎 + 查询日志 ; 参考:《科技通报》2012年08期
【摘要】:提出一种层次聚类算法,旨在对搜索引擎的查询日志数据进行聚类分析。算法基于搜狗实验室公开的查询日志数据,通过3次划分完成查询文本聚类,每一次划分实现不同程度的降维。相似度参数可根据不同的聚类需求调整,算法可扩展性强。实验结果为查询推荐、相关性排序等提供了有力的依据。
[Abstract]:A hierarchical clustering algorithm is proposed to cluster search engine log data. The algorithm is based on the query log data published by Sogou Lab, and completes the query text clustering through three partitioning, each partition realizes different degree of dimensionality reduction. Similarity parameters can be adjusted according to different clustering requirements, and the algorithm is scalable. The experimental results provide a powerful basis for inquiry recommendation, correlation ranking and so on.
【作者单位】: 乐山师范学院智能信息处理及应用重点实验室;
【基金】:四川省教育厅青年基金资助(11ZB134)
【分类号】:TP301.6;TP391.3
【共引文献】
相关期刊论文 前6条
1 陈天莹;陈蓉;潘璐璐;李红军;于中华;;基于前后文n-gram模型的古汉语句子切分[J];计算机工程;2007年03期
2 谈文蓉;符红光;刘莉;杨宪泽;;一种基于贝叶斯分类与机读词典的多义词排歧方法[J];计算机应用;2006年06期
3 张映海;何中市;陈永锋;;搜索引擎结果中Web文档的排序研究[J];计算机与数字工程;2007年02期
4 谷波;李济洪;刘开瑛;;基于COSA算法的中文文本聚类[J];中文信息学报;2007年06期
5 娜步青;;基于统计的蒙汉机器翻译系统研究[J];内蒙古农业大学学报(社会科学版);2006年02期
6 谈文蓉;;汉英机器翻译系统中统计消歧的多步策略[J];西南民族大学学报(自然科学版);2006年01期
相关会议论文 前5条
1 邹红建;杨尔弘;;面向对外汉语报刊教学的文本难易度分类[A];第三届学生计算语言学研讨会论文集[C];2006年
2 金东日;;在朝汉机器翻译上出现转换的难点[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
3 陈毅恒;秦兵;刘挺;林建国;李生;;基于错误预测的文本分类方法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
4 王智超;季铎;蔡东风;张桂平;;文本聚类中基于知网的特征抽取方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 钟茂生;;自然语言中的对象及其处理[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
相关博士学位论文 前7条
1 雷震;基于事件的新闻报道分析技术研究[D];国防科学技术大学;2006年
2 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年
3 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
4 常娥;古籍智能处理技术研究[D];南京农业大学;2007年
5 何琳;古农学本体的半自动构建及检索研究[D];南京农业大学;2007年
6 孙凌云;面向产品概念设计的专利地图技术研究[D];浙江大学;2008年
7 方淼;语义单元自动获取研究[D];大连理工大学;2008年
相关硕士学位论文 前10条
1 张虎;汉语语料库词性标注一致性检查及自动校对方法研究[D];山西大学;2005年
2 刘江;大规模汉语语料库分词一致性检验技术研究[D];山西大学;2005年
3 顾平;一种智能型数码输入技术的研究与设计[D];苏州大学;2005年
4 熊冬明;汉语自动分词和中文人名识别技术研究[D];浙江大学;2006年
5 郭妍;基于市长公开电话文本为背景的两种自动分类算法的比较[D];东北师范大学;2006年
6 杨军玲;汉语动词词语搭配自动获取方法研究[D];山西大学;2006年
7 苗玺;中文语料库切分不一致字串分类校验方法研究[D];山西大学;2006年
8 李霞;XJAUQA自动问答系统的设计与实现[D];新疆农业大学;2006年
9 王绮;基于内容的短信息过滤系统研究[D];哈尔滨工程大学;2006年
10 王蕾;基于转换学习的专有名词识别[D];苏州大学;2006年
【二级参考文献】
相关期刊论文 前10条
1 王继民,陈,
本文编号:1873687
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1873687.html