当前位置:主页 > 科技论文 > 软件论文 >

科技查新中检索词智能抽取系统的设计与实现

发布时间:2018-01-27 05:32

  本文关键词: 科技查新 检索词 关键词抽取 网络爬虫 出处:《现代图书情报技术》2016年11期  论文类型:期刊论文


【摘要】:【目的】解决科技查新领域检索词选择时的主观性强、手工工作量大、不规范、费时费力的问题。【应用背景】为了实现检索词抽取过程的自动化、智能化、规范化,本文提出利用科技查新过程检出的实时相关语料作为领域知识的来源,并对语料组成类型与关键词抽取效果之间的关系进行讨论。【方法】通过关键词抽取、领域特征扩展相结合的递进式迭代抽取方式实现科技查新领域检索词的智能抽取。【结果】通过与实际查新案例所采用的检索词对比,发现使用本方法两次迭代后抽取10个检索词,召回率达到80%。【结论】基于查新过程中检出文献构成的动态相关语料进行检索词的迭代抽取有助于快速、准确锁定绝大部分检索词,提高检索的效率和效果。
[Abstract]:[objective] to solve the problem of strong subjectivity, heavy manual work, non-standard, time-consuming and laborious selection of keywords in the field of scientific and technological novelty retrieval. [application background] in order to realize the automation and intelligence of the extraction process of search words. Standardization, this paper proposes to use the real-time correlation data from the process of science and technology retrieval as the source of domain knowledge. The relationship between the type of corpus and the effect of keyword extraction is discussed. [methods] keyword extraction is carried out through keyword extraction. A progressive iterative extraction method combined with domain feature expansion is used to realize intelligent extraction of search words in science and technology novelty retrieval field. [results] by comparing with the actual retrieval cases, the search terms are compared. It is found that this method is used to extract 10 search words after two iterations, and the recall rate is 80%. [conclusion] iterative extraction of search words based on the dynamic correlation-related data formed in the process of retrieval is helpful to speed up the retrieval. Lock most of the search words accurately to improve the efficiency and effect of retrieval.
【作者单位】: 中国科学院软件研究所;中国科学院大学;
【基金】:国家自然科学基金项目“云计算环境下的隐蔽信道机理研究”(项目编号:61170072)、国家自然科学基金青年科学基金项目“移动智能终端隐蔽信道机理研究”(项目编号:61303057) 中国科学院、国家外国专家局创新团队国际合作项目“安全攸关软件理论和构造方法”的研究成果之一
【分类号】:TP391.3;G252.62
【正文快照】: 1引言科技查新是一种通过文献检索、对比和分析,查证查新项目新颖性的信息咨询服务工作。根据查新时的检索范围,可分为国内查新、国外查新和国际查新三类。其中,文献检索是科技查新的基础,涉及检索式的组配,其中检索词的选定对检索结果起着关键性的作用,是影响科技查新质量的

本文编号:1467705

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1467705.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a30cc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com