利用构建语义词典的查询自动分类方法
[Abstract]:In order to solve the problem that traditional document classification methods and manual classification methods are not suitable for query classification, a method of automatically constructing semantic dictionaries of specific topics based on Web is proposed to classify search queries. Through theme-based Web information collection and bootstrap-ping, a small number of keywords of a topic are progressively expanded, Finally, we get the semantic dictionary of this topic and the relative word frequency of each word in the dictionary. The redundancy of information in Web and the semantic difference of each topic make the category and number of words in the semantic dictionary of each topic very different. This difference can be used to classify users' search queries. The experimental results show that the semantic dictionary can be used to classify users' queries accurately, and the classification method does not require manual intervention, and it can adapt to the characteristics of wide search coverage and strong real-time performance. The problem of search query classification is well solved.
【作者单位】: 哈尔滨工业大学计算机学院;中国科学院软件研究所互联网实验室;
【基金】:国家自然科学基金资助项目(60571025) 国家高技术研究发展计划资助项目(2006AA01Z308)
【分类号】:TP391.1
【参考文献】
相关期刊论文 前1条
1 黎铭,薛晓冰,周志华;基于多示例学习的中文Web目录页面推荐[J];软件学报;2004年09期
【共引文献】
相关期刊论文 前10条
1 汤世平;樊孝忠;;基于多示例学习的题库重复性检测研究[J];北京理工大学学报;2005年12期
2 陈治平,林亚平,彭雅,王雷,童调生;基于最小类差异的无关信息预处理算法[J];电子学报;2003年11期
3 李菁菁,邵培基,黄亦潇;数据挖掘在中国的现状和发展研究[J];管理工程学报;2004年03期
4 钟茂生;WEB页面的模糊聚类[J];华东交通大学学报;2004年05期
5 袁家政;须德;鲍泓;;基于结构与文本关键词相关度的XML网页分类研究[J];计算机研究与发展;2006年08期
6 张茂元;邹春燕;卢正鼎;;一种基于变调整学习规则的模糊网页分类方法研究[J];计算机研究与发展;2007年01期
7 刘壁松,李春平;一个可扩展的文本分类系统的设计与实现[J];计算机工程与应用;2004年30期
8 王丽侠,房福亭;分级聚类与平面划分结合方法在网页分类中的应用[J];计算机工程与应用;2004年35期
9 梁春燕,郭力,夏诏杰,杨章远;网络搜索引擎的性能优化策略和相关技术[J];计算机工程与应用;2004年36期
10 许勇,宋柔;基于HMM的百科辞典文本中句子的知识点分类[J];计算机工程与应用;2005年04期
相关博士学位论文 前5条
1 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年
2 周瑛;神经网络作为分类器的算法研究及在信息检索中的应用[D];安徽大学;2006年
3 易文晟;图像语义检索和分类技术研究[D];浙江大学;2007年
4 刘伟;图像检索中若干问题的研究[D];浙江大学;2007年
5 袁家政;可伸缩矢量图形(SVG)的数据表示研究[D];北京交通大学;2008年
相关硕士学位论文 前10条
1 曹渝昆;基于RDF的个性化服务模型[D];重庆大学;2002年
2 胡蓉;中文Web文档倾向性自动分类研究[D];四川大学;2003年
3 翟静;可扩展的文本分类系统的核心API的设计与实现[D];四川大学;2003年
4 张承明;基于Web的数据挖掘研究[D];山东科技大学;2003年
5 李建祥;智能网页推荐系统的相关技术研究[D];西南交通大学;2004年
6 蒋伟贞;基于类别的特征选择算法的文本分类系统[D];西南交通大学;2004年
7 彭雅;文本分类算法及其应用研究[D];湖南大学;2004年
8 张海龙;Web挖掘技术在东亚植物遗传资源管理系统中的应用研究[D];中国农业大学;2005年
9 祝翠玲;基于无监督聚类和朴素贝叶斯分类的文本分类方法研究[D];山东大学;2005年
10 侯小静;贝叶斯分类器研究及其在Web文档分类中的应用[D];郑州大学;2005年
【二级参考文献】
相关期刊论文 前2条
1 韩客松,王永成,陈桂林;无词典高频字串快速提取和统计算法研究[J];中文信息学报;2001年02期
2 金翔宇,孙正兴,张福炎;一种中文文档的非受限无词典抽词方法[J];中文信息学报;2001年06期
【相似文献】
相关期刊论文 前10条
1 ;创新工业搜索引擎[J];中国制造业信息化;2011年12期
2 胡风华;王磊;;基于知识库系统的智能搜索引擎研究[J];中国新技术新产品;2011年18期
3 方亚会;;Google失败后快速切换搜索引擎[J];电脑迷;2011年11期
4 李国锋;李春伟;;网络搜索引擎技术探析[J];廊坊师范学院学报;2005年04期
5 冷国华;;网页快照帮我快速获取资料[J];电脑爱好者;2011年10期
6 闫淑红;;基于搜索引擎的信息查询技术研究[J];电脑开发与应用;2011年07期
7 康亚娟;;浅谈站内信息搜索系统[J];硅谷;2011年13期
8 孙掌印;;搜索引擎Yahoo与Google的比较分析[J];科技情报开发与经济;2011年17期
9 冯庆峰;;信息时代如何获取信息[J];成功(教育);2011年08期
10 王巧玲;彭静;王春红;;中文分词技术的研究及在Nutch中的实现[J];科技信息;2011年19期
相关会议论文 前10条
1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
2 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
3 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
4 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
5 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
6 杨萌;李春丽;朱明;;网络搜索技术下的编辑工作[A];学报编辑论丛(第十一集)[C];2003年
7 陈磊;茹立云;马少平;;基于用户日志挖掘的搜索引擎广告效果分析[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
8 申琪君;;电子地图搜索引擎比较[A];中国地理学会2007年学术年会论文摘要集[C];2007年
9 岑荣伟;刘奕群;张敏;茹立云;马少平;;网络搜索引擎用户行为分析和研究[A];第五届全国信息检索学术会议论文集[C];2009年
10 萨晓静;;网络化生存下的图书馆改革之路[A];福建省图书馆学会2008年学术年会论文集[C];2008年
相关重要报纸文章 前10条
1 本报记者 朱杰;搜索引擎应用性能分析报告[N];中国计算机报;2009年
2 记者 李建伟;第4代搜索引擎在郑州问世[N];中国知识产权报;2009年
3 记者 赵志鹏;媒体称俄拟建国家搜索引擎[N];新华每日电讯;2010年
4 吴前;搜索引擎“碳排量”惊人[N];中国文化报;2010年
5 记者 李大庆;新型搜索引擎能向用户直接提供所需内容[N];科技日报;2010年
6 深圳大学传播学院、传媒与文化发展研究中心 周裕琼;谁动了我的大脑[N];社会科学报;2010年
7 李大庆;新型搜索引擎直接为用户提供所需内容[N];中国技术市场报;2010年
8 余建斌;搜索引擎市场“烽烟四起”[N];中国高新技术产业导报;2010年
9 迈巴赫 编译;搜索引擎20年[N];计算机世界;2010年
10 记者 秦羽 通讯员 施银峰;全球搜索引擎营销大会在甬举行[N];宁波日报;2010年
相关博士学位论文 前10条
1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
7 曹欢欢;基于大规模搜索日志挖掘的上下文感知搜索研究[D];中国科学技术大学;2009年
8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
9 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
10 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年
相关硕士学位论文 前10条
1 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年
2 李海丰;基于Lucene的企业文档搜索引擎研究与应用[D];中南林业科技大学;2009年
3 赵善明;基于Lucene的主题搜索引擎研究[D];西安电子科技大学;2008年
4 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年
5 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年
6 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年
7 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年
8 王春芹;搜索引擎主题相关性研究[D];中山大学;2010年
9 詹恒飞;分布式图片搜索引擎设计与实现[D];国防科学技术大学;2010年
10 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
,本文编号:2429242
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2429242.html