当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向企业创新的搜索引擎研究与应用

发布时间:2020-09-15 15:20
   科技文献等资源在学术研究、技术研发中起着非常重要的作用,随着互联网搜索引擎的发展,文献检索变得越来越便捷。但是海量的科技文献资源包含着很多隐含知识和信息,只有对其深入挖掘和处理,才能满足特定行业和领域的需求。中小企业在创新发展过程中对专业人才和科技文献资源的智能搜索需求非常大,但是现有的很多科技搜索引擎对科技资源的知识挖掘有限,搜索效果不够理想,无法满足企业的搜索需求。因此本文从优化科技资源全文搜索算法和提高特定领域人才搜索效果出发,对其进行相关研究,提出了基于文档评分模型和相关度的科技资源搜索排序算法,用于提高科技文献资源全文搜索效果;以及提出了一种领域人才搜索方法,帮助企业高效寻找特定领域内的优秀专家人才。本文的主要研究工作如下:(1)科技资源大数据的采集和预处理。使用分布式网络爬虫技术采集互联网上公开的科技文献资源和专家人才信息,对爬取的原始数据进行清洗和预处理,使之成为可以进行操作和索引的结构化数据库。(2)研究提出一种基于文档评分模型和相关度的科技资源搜索排序算法。该算法分别针对学术论文、专利、科研项目这些科技资源文档,根据其数据特征构建相应的文档评分模型,并且结合搜索相关度计算综合评分,对搜索结果进行排序。实验表明,该算法提高了搜索效果,能较好地满足企业的搜索需求。(3)研究提出一种根据领域搜索人才的方法。该方法根据领域关键词和分词匹配方法对海量科技资源文档进行智能标注,同时完成文档对应人才的领域归属标注;提出一种人才领域专业能力模型,用于结合统计等方法估算人才在各个领域内的能力价值评分;通过离线计算完成领域人才库的构建,实现领域人才搜索的功能。实验表明,该方法通过大数据计算能智能地完成人才所属领域的评分排序,达到较好的领域人才搜索效果。基于上述研究成果,开发了面向企业创新的搜索引擎并进行了实际应用,有效解决企业创新过程中搜索匹配技术人才和科技文献资源的问题。
【学位单位】:杭州电子科技大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP391.3
【部分图文】:

领域关系,科技资源,作者,专业能力


图 4.1 科技资源与其作者、领域关系图才领域专业能力模型小节只是提供了人才领域大致归属的方法,但是没有根据人才所源信息对其领域专业能力进行评估,因而不能有效满足根据领域搜精准化需求。因此本节将提出一种人才领域专业能力模型,用于衡领域内的能力水平和排名情况。

二维空间,科技资源,人才,文档


33图 4.1 科技资源与其作者、领域关系图4.2.3 人才领域专业能力模型上一小节只是提供了人才领域大致归属的方法,但是没有根据人才所对应的科技资源信息对其领域专业能力进行评估,因而不能有效满足根据领域搜索匹配人才的精准化需求。因此本节将提出一种人才领域专业能力模型,用于衡量人才在相应领域内的能力水平和排名情况。4.2.3.1 成果质量评分要衡量人才的能力水平,首先需要衡量该人才所取得的科研成果的质量和水平,所以我们需要给所有科技文献资源进行计算打分。在本文 3.4 章节中,我们已经就文档的评价体系进行了研究,考虑时间因子、质量因子和反馈因子来构建文档评分模型。而在此处,我们将对仅仅使用文档评分模型中的质量因子来衡量某一科技资源的价值,这是因为 3.4 章中的文档评分模型主要用于对于科技资源搜索结果的排序优化,在搜索引擎中,搜索出来的结果对于搜索者有着现实的参考价值,因此需要该成果时间上较新(考虑时间因子,防止过时),同时得到了更多的认可(考虑反馈因子)。而此处仅仅需要衡量科技资源自身的价值,所以只需要考虑科技资源的质量因子。因为科技文献资源分为学术论文、专利和科研项目三部分,所以我们以 、 和 来表示不同类型文献资源的分值,表达式分别如下:= ( + 10) ( ) (4.1)= ( ) (4.2)= ( ) ( ) (4.3)上述三个公式在 3.4.1 小节文档评分模型中已经介绍过,此处再简单复述一遍。式(4.1)中 为论文被引用次数,被引用次数越多,说明该篇论文质量越高,则该成果的总分值越高。 为调节因子

搜索引擎,主界面,创智


5.3 实例展示上述介绍的面向企业创新的搜索引擎展示如下。图 5.2 是搜索引擎的主界面,该搜索引擎作为“佐创智推”平台上的智能搜索功能使用。“佐创智推”平台是一个科技人才搜索与推荐平台,该平台为浙江省重点研发计划项目,由作者所在实验室师生共同开发,主要服务于企业用户,目的在于促进成果转化,助力企业创新。从图中可以看到该搜索引擎的主要功能,如科技资源全文搜索、领域找人、人名找人和单位找人等。

【参考文献】

相关期刊论文 前2条

1 孟凡淇;;信息检索模型研究综述[J];信息通信;2013年03期

2 戴耿毅;佘静涛;;基于双数组Trie树算法的字典改进和实现[J];软件导刊;2012年07期

相关硕士学位论文 前3条

1 郑威杰;科技文献作者消歧方法研究[D];杭州电子科技大学;2017年

2 任书琴;健康领域的垂直搜索引擎的研究与实现[D];电子科技大学;2016年

3 苗泽林;基于Lucene的个性化搜索引擎系统[D];中国舰船研究院;2013年



本文编号:2819134

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2819134.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户feb0a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com