基于URL主题的查询分类方法
发布时间:2018-12-13 22:49
【摘要】:互联网上很多资源蕴含人类群体智慧.分类网站目录人工地对网站按照主题进行组织.基于网站目录中具有主题标注的URL设计URL主题分类器,结合伪相关反馈技术以及搜索引擎查询日志,提出了自动、快速、有效的查询主题分类方法.具体地,方法为2种策略的结合.策略1通过计算搜索结果中URL的主题分布预测查询主题,策略2基于查询日志点击关系,利用具有主题标注的URL,对查询进行标注获取数据并训练统计分类器预测查询主题.实验表明,方法可获得比当前最好算法更好的准确率,更好的在线处理效率并且可基于查询日志自动获取训练数据,具有良好的可扩展性.
[Abstract]:Many resources on the Internet contain human collective wisdom. The catalog of classified websites manually organizes the sites according to their themes. Based on the URL with topic tagging in the website directory, a URL topic classifier is designed. Combining with pseudo-correlation feedback technology and search engine query log, an automatic, fast and effective query topic classification method is proposed. Specifically, the method is a combination of two strategies. Strategy 1 calculates the topic distribution of URL in search results to predict query topics. Strategy 2 uses URL, with topic tagging to extract data and train statistical classifier to predict query topics based on query log click relationship. The experimental results show that the method can achieve better accuracy than the best algorithm, better on-line processing efficiency, and can automatically obtain training data based on query log, which has good scalability.
【作者单位】: 哈尔滨工业大学计算机科学与技术学院;
【基金】:国家自然科学基金重点项目(60736044);国家自然科学基金面上项目(61073129) 语言语音教育部-微软重点实验室开放基金项目(HIT.KLOF.2009020) “核高基”国家科技重大专项基金项目(2011ZX01042-001-001) 国家“八六三”高技术研究发展计划基金项目(2011AA01A207)
【分类号】:TP391.1
本文编号:2377389
[Abstract]:Many resources on the Internet contain human collective wisdom. The catalog of classified websites manually organizes the sites according to their themes. Based on the URL with topic tagging in the website directory, a URL topic classifier is designed. Combining with pseudo-correlation feedback technology and search engine query log, an automatic, fast and effective query topic classification method is proposed. Specifically, the method is a combination of two strategies. Strategy 1 calculates the topic distribution of URL in search results to predict query topics. Strategy 2 uses URL, with topic tagging to extract data and train statistical classifier to predict query topics based on query log click relationship. The experimental results show that the method can achieve better accuracy than the best algorithm, better on-line processing efficiency, and can automatically obtain training data based on query log, which has good scalability.
【作者单位】: 哈尔滨工业大学计算机科学与技术学院;
【基金】:国家自然科学基金重点项目(60736044);国家自然科学基金面上项目(61073129) 语言语音教育部-微软重点实验室开放基金项目(HIT.KLOF.2009020) “核高基”国家科技重大专项基金项目(2011ZX01042-001-001) 国家“八六三”高技术研究发展计划基金项目(2011AA01A207)
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 岳峰;孙亮;王宽全;王永吉;左旺孟;;利用构建语义词典的查询自动分类方法[J];哈尔滨工业大学学报;2008年07期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
相关会议论文 前1条
1 宋巍;张宇;谢毓彬;高汉东;刘挺;李生;;利用URL类别改进查询主题分类[A];第六届全国信息检索学术会议论文集[C];2010年
相关博士学位论文 前2条
1 曹欢欢;基于大规模搜索日志挖掘的上下文感知搜索研究[D];中国科学技术大学;2009年
2 翟海军;面向Web信息检索的知识挖掘[D];中国科学技术大学;2010年
相关硕士学位论文 前3条
1 谢宇超;面向实体查询的开放式信息抽取技术研究[D];北方工业大学;2012年
2 徐骥超;网络日志挖掘及其在查询理解中的应用研究[D];北方工业大学;2013年
3 王井丰;基于百度百科的查询意图分类[D];吉林大学;2013年
,本文编号:2377389
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2377389.html