当前位置:主页 > 科技论文 > 软件论文 >

基于词项图分析的查询分面挖掘方法

发布时间:2018-03-01 17:36

  本文关键词: 查询分面 用户意图 频繁列表 词项图 知识库 社会媒体 社会计算 出处:《计算机学报》2017年03期  论文类型:期刊论文


【摘要】:查询分面是用于描述查询某一方面内容的一组并列的词或词组.现有的查询分面挖掘方法主要通过模式挖掘搜索结果中包含的高频列表,并利用无监督或有监督的方法对高频列表进行聚类,最终得到查询分面.因为通常采用的搜索结果的数目有限,这种方法挖掘出的查询分面及其包含的分面项的覆盖率不高.针对这一问题,该文提出了一种基于从大规模网页中构建的词项图的查询分面挖掘方法.首先基于大规模网页数据集构建词项图,图中的节点代表词项,边代表两个词项的相似性.针对每个查询,从搜索结果中挖掘出初始分面,然后基于词项图对这些初始查询分面进行扩充,找到词项图中与初始分面类似的候选词,对候选词抽取多种特征,最后利用支持向量机对候选词进行分类,预测词项是否可为扩充词项,并将预测为正例的词项扩充到分面中.该扩充过程迭代多次直到无法找到更多分面项.实验表明该方法可有效提高查询分面的质量,尤其是能够显著改善分面项的覆盖率.
[Abstract]:Query partitioning is a set of paratactic words or phrases used to describe a certain aspect of a query. And using unsupervised or supervised methods to cluster high-frequency lists, and finally get the query facets, because the number of commonly used search results is limited, This method does not have a high coverage of the query partitioning and the items it contains. In view of this problem, In this paper, a query face mining method based on the term graph constructed from large scale web pages is proposed. Firstly, a word item graph is constructed based on a large scale web page data set, and the nodes in the graph represent the word item. The edges represent the similarity of the two terms. For each query, the initial face is mined from the search results, then the initial query faces are expanded based on the term graph, and the candidate words similar to the initial face are found in the term graph. Finally, support vector machine (SVM) is used to classify candidate words to predict whether they can be extended. The term items predicted as positive examples are extended to the facets. The extended process iterates many times until no more facets can be found. Experiments show that this method can effectively improve the quality of query partitioning, especially the coverage of partitioning items.
【作者单位】: 中国人民大学信息学院;中国艺术科技研究所;中国人民大学大数据管理与分析方法研究北京市重点实验室;
【基金】:国家自然科学基金(61502501) 国家“九七三”重点基础研究发展规划项目基金(2014CB340403)资助~~
【分类号】:TP391.1

【相似文献】

相关期刊论文 前2条

1 吴直雄;“’”运用混乱亟待规范[J];中国出版;1996年12期

2 ;[J];;年期

相关会议论文 前2条

1 许锦云;;普通逻辑中的概念应改为词项[A];逻辑今探——中国逻辑学会第五次代表大会暨学术讨论会论文集[C];1996年

2 李永铭;;普通逻辑三问[A];1997年逻辑研究专辑[C];1997年

相关重要报纸文章 前1条

1 杨锡彭;汉语中的韵律词[N];语言文字周报;2013年

相关博士学位论文 前3条

1 成军;论词项的概念指向性[D];西南大学;2010年

2 吴丽英;词项装配与合并的最简研究[D];上海外国语大学;2008年

3 李翠英;搭配的动态观及其应用研究[D];苏州大学;2011年

相关硕士学位论文 前5条

1 陈博影;从词项逻辑的角度判断“张之江命题”的真伪[D];福建师范大学;2015年

2 洪欢;基于词重要性的信息检索图模型[D];江西师范大学;2015年

3 周国亮;基于交叉词项的中文信息检索方法研究[D];华中师范大学;2016年

4 尹浩传;基于词项依赖信息的中文信息检索方法研究[D];华中师范大学;2014年

5 罗杨;英汉身体部位词项语义引申的认知实证研究[D];四川外语学院;2010年



本文编号:1552899

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1552899.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c4c9c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com