当前位置:主页 > 科技论文 > 搜索引擎论文 >

科技人才信息分布式采集及处理关键技术研究

发布时间:2022-10-09 21:04
  近年来,科技成果转化已成为国家重点发展和支持的产业。企业对科技成果转化有着极大的需求。搭建一个面向企业实际需求的科技人才搜索引擎具有重要现实意义,而如何保证所有信息的全面性、完整性和准确性将是实现高效科技人才搜索引擎的重要前提,也是本文研究的重点问题。对于海量的科技人才信息,传统的单机或多线程的爬虫架构其数据采集效率较低,很难满足全网大规模数据采集需求。此外,由于数据的多源异构性,采集到的科技人才数据往往存在一定的噪音,如科技人才的同名歧义现象等,导致数据的准确性无法得到保证。针对上述问题,本文从提高网络爬虫采集效率和消除同名歧义两个方面入手展开相关研究,分别提出了:基于Hadoop的分布式数据采集平台,用于提高海量科技人才信息的采集效率;一种多策略组合模型的同名消歧方法,用于解决科技人才同名歧义问题。本文的主要研究工作如下:(1)设计并实现了基于Hadoop的分布式科技人才信息采集平台。分别从物理架构、逻辑架构、工作流程和功能模块四个方面对采集平台进行了设计,并基于Hadoop平台进行实现与部署。通过该平台,采集到海量的科技人才相关信息,包括学术论文、专利、科研项目以及科技人才个人信... 

【文章页数】:68 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第一章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
        1.2.1 分布式主题爬虫研究现状
        1.2.2 同名消歧研究现状
    1.3 本文研究内容
    1.4 本文组织结构
第二章 相关理论与技术基础
    2.1 主题网络爬虫
        2.1.1 主题网络爬虫基本原理
        2.1.2 主题网络爬虫体系架构
        2.1.3 分布式主题网络爬虫
    2.2 Hadoop分布式平台
        2.2.1 分布式文件系统HDFS
        2.2.2 MapReduce计算框架
    2.3 同名消歧相关技术
        2.3.1 文本表示模型
        2.3.2 相似度计算
        2.3.3 层次聚类理论
    2.4 本章小结
第三章 分布式采集平台设计和实现
    3.1 分布式采集平台架构设计
        3.1.1 物理架构设计
        3.1.2 逻辑架构设计
        3.1.3 工作流程设计
    3.2 分布式采集平台功能模块设计
        3.2.1 URL初始化模块
        3.2.2 网页下载模块
        3.2.3 网页解析模块
        3.2.4 URL去重模块
        3.2.5 数据存储模块
    3.3 分布式采集平台的实现
        3.3.1 URL初始化模块实现
        3.3.2 网页下载模块实现
        3.3.3 网页解析模块实现
        3.3.4 URL去重模块实现
        3.3.5 数据存储模块实现
    3.4 本章小结
第四章 数据预处理
    4.1 数据规范化处理
    4.2 非结构化数据提取
    4.3 本章小结
第五章 基于多策略组合模型的同名消歧方法
    5.1 基于实体连接的消歧策略
    5.2 基于成果时间窗的消歧策略
    5.3 基于成果合著者的消歧策略
    5.4 基于成果相似度的消歧策略
        5.4.1 成果向量化表示
        5.4.2 成果相似度计算
    5.5 基于多策略组合模型的消歧方法
    5.6 实验分析验证
        5.6.1 实验1:验证基于词向量的文本表示
        5.6.2 实验2:验证多策略组合模型
    5.7 本章小结
第六章 科技人才信息采集及处理的应用
    6.1 科技人才搜索与推荐平台
    6.2 采集实现
    6.3 本章小结
第七章 总结与展望
    7.1 工作总结
    7.2 未来展望
致谢
参考文献
附录


【参考文献】:
期刊论文
[1]百度:全球最大中文搜索引擎是怎样炼成的[J]. 曾灵华.  军事记者. 2013(01)
[2]主从模式下集散控制系统中无线通信的设计[J]. 陈小东.  自动化应用. 2012(11)
[3]Namenode单点故障解决方案研究[J]. 邓鹏,李枚毅,何诚.  计算机工程. 2012(21)
[4]基于社会网络的人名检索结果重名消解[J]. 郎君,秦兵,宋巍,刘龙,刘挺,李生.  计算机学报. 2009(07)
[5]专利申请号标准[J].   电子知识产权. 2003(09)

硕士论文
[1]融合社会关系的属性图聚类专家消歧方法[D]. 江瑾.昆明理工大学 2015
[2]融合句义特征的人名消歧及人物关系抽取技术研究[D]. 张晗.北京理工大学 2015
[3]基于主题的多线程网络爬虫系统的研究与实现[D]. 陈露.北京邮电大学 2015
[4]基于好友相似度的在线社会网络社区发现算法研究[D]. 方平.华中科技大学 2013
[5]基于HDFS的云存储系统数据安全性研究[D]. 石磊庆.北京邮电大学 2013
[6]科技文献作者重名消歧与实体链接[D]. 宋文强.哈尔滨工业大学 2012
[7]基于分布式计算的网络爬虫技术研究[D]. 么士宇.大连海事大学 2011
[8]基于广域网的分布式网页信息获取系统的研究与实现[D]. 刘哲.吉林大学 2008



本文编号:3689352

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3689352.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0fc72***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com