维基百科在多种类型数字文本资源自动分类中的应用
本文关键词: 书目信息 新闻网页 自动分类 维基百科 特征扩展 出处:《情报科学》2017年02期 论文类型:期刊论文
【摘要】:【目的/意义】书目信息和网页等不同类型文献之间存在特征词不匹配等语义差异问题,使得将书目信息作为训练集来对网络信息资源进行自动分类时,现有分类方法的分类性能不佳。【方法/过程】文章提出使用维基百科开展语义特征扩展,解决语义差异问题的自动文本分类方法。使用数字图书馆中容易获取类别标识及摘要等文本内容的书目信息作为训练集,引入第三方资源的维基百科对其进行语义特征扩展,缩小作为训练集的书目信息与作为待分类文本的网页之间的语义差异,对属于不同文献类型的网页进行分类。【结果/结论】实验表明与未经过扩展的分类方法相比,分类准确率分别提高5.5%至8.4%,证明该方法能够有效提高文本自动分类的分类效果。
[Abstract]:[feature words do not match the semantic differences between bibliographic information and web pages to different types of literature / significance], the bibliographic information as the training set for automatic classification of network information resources, the classification performance of the existing classification methods are poor. [method] / process is proposed in this paper using Wikipedia to carry out semantic extension, automatic text classification method to solve the problem of semantic difference. Category identification and abstract text content accessible using the digital library bibliographic information as the training set, the introduction of third party resources Wikipedia semantic features of its expansion, narrowing as bibliographic information and semantic differences between the text to be classified as "the training set, the classification of belong to different types of literature". [Conclusion] the results / experiments show that compared with the classification method has not been extended, classification The accuracy rate is increased by 5.5% to 8.4% respectively, which proves that the method can effectively improve the classification effect of automatic text classification.
【作者单位】: 武汉大学信息管理学院;武汉大学信息资源研究中心;
【基金】:国家社会科学基金项目(15BTQ066)
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 黄莉;李湘东;;基于《中图法》的自动分类研究现状与展望[J];图书情报知识;2012年04期
2 叶新明;徐进鸿;;中文文献自动分类研究[J];情报科学;1992年05期
3 叶新明;中文文献自动分类研究概述[J];情报理论与实践;1992年05期
4 蔡巍;王英林;尹中航;;基于主题提取与兼类噪声消除新方法的自动分类系统[J];情报科学;2009年10期
5 肖明,沈英;自动分类研究进展[J];现代图书情报技术;2000年05期
6 倪锦峰,王家楫;硅片工艺缺陷复检和自动分类系统[J];电子工业专用设备;2002年03期
7 王兰波,张积友,范冰冰;国内信息导航系统中的信息自动分类子系统的设计与实现[J];计算机工程与应用;2002年03期
8 廖勇;;信息处理及文献自动分类的探讨[J];西南民族大学学报(自然科学版);2008年04期
9 顾永跟;自动分类探讨[J];湖州师专学报;1995年05期
10 成颖,史九林;自动分类研究现状与展望[J];情报学报;1999年01期
相关会议论文 前3条
1 何琳;侯汉清;;基于标引经验和机器学习相结合的多层自动分类[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
2 赵朋朋;高岭;崔志明;;基于查询接口特征的Deep Web数据源自动分类[A];2006年全国开放式分布与并行计算学术会议论文集(二)[C];2006年
3 孙雄勇;罗霄;;中图分类法体系下的自动分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
相关硕士学位论文 前10条
1 朱婉莹;少数民族文化文本资源自动分类研究[D];云南师范大学;2015年
2 田泱;基于深度学习的自动分类相册系统的设计与实现[D];中山大学;2015年
3 陈玉芹;多类别科技文献自动分类系统[D];华中科技大学;2008年
4 段晓燕;投诉信息自动分类与推送系统的研究与设计[D];北京邮电大学;2013年
5 吴娟;军用信息自动分类的研究与实现[D];南京理工大学;2004年
6 马芳;基于神经网络的文本挖掘在专利自动分类中的研究与应用[D];山东理工大学;2009年
7 赵传敏;基于多特征选择的心电信号自动分类算法研究[D];苏州大学;2012年
8 王爽;基于知识库的自动分类系统设计与实现[D];厦门大学;2007年
9 叶鹏;基于机器学习的中文期刊论文自动分类研究[D];南京大学;2013年
10 李可;文献自动分类的文献交流平台的设计与实现[D];北京化工大学;2013年
,本文编号:1522871
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1522871.html