基于多标签分类的学术文献潜在时间意图识别研究
发布时间:2018-05-05 16:40
本文选题:多标签分类 + 主题模型 ; 参考:《湖南大学学报(自然科学版)》2017年10期
【摘要】:为了提高检索结果的时间相关性,将文本特征抽取和多标签分类算法应用于文献检索的潜在时间意图分类研究之中.从检索潜在时间意图分类的角度出发,提出一种基于文本时间信息抽取和Labeled LDA(标签主题模型)的文献潜在时间意图自动分类算法.首先,在获取的文献时间信息基础上,将文献检索潜在时间意图映射至具体时间类别.其次,为了减少时间信息的稀疏性对分类特征学习过程的影响,利用交叉学科中时间短语分布特征优化Labeled LDA分类模型的标签选择过程.最后,将所提算法与其他多标签分类算法进行对比实验,分析和评估文献检索潜在时间意图自动分类的准确率.结果表明,所提算法的AUC的值达到79.6%,较同类基准算法ECC(整体分类链)提高约10.9%,且针对不同学科均取得了较好的分类效果,是一种有效的文献检索潜在时间意图学习方法.
[Abstract]:In order to improve the temporal correlation of retrieval results, text feature extraction and multi-label classification algorithms are applied to the research of potential temporal intention classification in literature retrieval. From the point of view of retrieval potential time intention classification, a document potential time intention automatic classification algorithm based on text time information extraction and Labeled LDA (label topic Model) is proposed. Firstly, based on the acquired time information, the potential time intention of literature retrieval is mapped to specific time categories. Secondly, in order to reduce the influence of time information sparsity on classification feature learning process, the label selection process of Labeled LDA classification model is optimized by using temporal phrase distribution features in cross-discipline. Finally, the proposed algorithm is compared with other multi-label classification algorithms to analyze and evaluate the accuracy of automatic classification of potential time intention in literature retrieval. The results show that the AUC value of the proposed algorithm is 79.6, which is about 10.9 higher than that of the similar benchmark algorithm Ecc (global classification chain), and the classification effect is good for different subjects. It is an effective method for document retrieval potential time intention learning.
【作者单位】: 南京理工大学经济管理学院;华南师范大学计算机学院;
【基金】:国家自然科学基金资助项目(71503124) 江苏省社会科学基金青年资助项目(15TQC03)~~
【分类号】:TP391.1
【相似文献】
相关期刊论文 前5条
1 侯小雯;邹永利;;网络学术文献内图片的自动识别与检索[J];情报理论与实践;2008年06期
2 李黎;唐亮;高凡;;中国学术文献总库(CNKI)的主要功能和使用技巧[J];农业图书情报学刊;2009年04期
3 沙勇;;《中国学术文献网络出版总库》应用研究[J];齐齐哈尔大学学报;2008年06期
4 郭萍;;CAJ Viewer在学术文献使用中的功能与技巧[J];金陵科技学院学报;2011年03期
5 何焱;宋丽丽;;关键领域热点发现与跟踪[J];西南师范大学学报(自然科学版);2014年07期
相关会议论文 前1条
1 倪维健;柳梅;曾庆田;刘彤;汤建渝;;一个面向主题的学术文献数据分析工具[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
相关重要报纸文章 前1条
1 本报见习记者 李淼;驶向学术文献网络出版的蓝海[N];中国新闻出版报;2009年
相关博士学位论文 前1条
1 强继朋;基于带有通配符序列模式和概率主题模型的多文档摘要技术研究[D];合肥工业大学;2016年
,本文编号:1848457
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1848457.html