基于机器学习的安全领域专家推荐系统的研究
发布时间:2021-10-17 14:32
随着国家大力倡导和弘扬创新,鼓励创新的精神,高度重视中小企业的创新发展,中小企业的技术创新与改革问题越来越受到重视。中小企业作为我国产学研合作的重要组成部分,在改革发展中十分需要获得政府与高校在技术、资金、政策和人才等方面的支持。实际上,当中小企业遇到技术创新与改革难题时,面对数以万计的相关领域专家,短时间内很难找到比较合适的人员进行咨询。针对这一问题,本文基于数据挖掘和机器学习的相关技术,设计了为中小企业服务的安全领域专家推荐系统。该系统主要面向安全领域,包括交通安全、建筑生产安全,电力安全等领域。当安全领域的企业有技术需求时,可以根据需求进行相似度匹配,找到最适合,最满足企业需求的安全领域专家,在节省企业搜索成本的同时,更有利于企业与专家精准对接。首先,本文研究已有的专家推荐算法特点,结合安全领域的特点,提出了利用专利网站中安全领域的专利信息作为专家最新的研究成果的观点,并设计了能够抓取专家论文信息的网络爬虫程序,主要是在“上海科技创新资源数据中心”网站下,基于万方数据库搜索以“安全”为关键词的专利信息。然后对专利信息进行预处理,并利用Word2Vec模型构建词向量空间模型,接着使...
【文章来源】:上海应用技术大学上海市
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
获取数据的网站Fig.3.1WebSiteforobtainingdata
图 3.2 专利的具体信息Fig.3.2 Specific information on patents通过以上流程,我们爬取了安全领域的专利文章 122945 篇,主要包括专利的标题,专利的申请人,专利的发明人,专利的 IPC 分类号和专利的摘要等信息,为下一步的工作奠定了坚实的基础。目前专利的分类按照《国际专利分类表(IPC 分类)》的标准执行[32]。IPC 分类号是根据《国际专利分类斯特拉斯堡协定》编制的,其作为国际通用的专利文献分类和检索工具,为世界各国所必备。目前我国也使用这套国际专利分类体系,下表为专利按“部”分类表[32],见表 3.1。表 3.1 国际专利分类表(IPC 分类)Table3.1 International Patent Classification (IPC Classification)部 专利范围A 人类生活必须B 作业;运输C 化学;冶金
图 3.3 原始数据详细信息Fig.3.3 Raw data details2 文本预处理2.1 中文分词处理中文分词是文本处理中的基本步骤。本文使用目前非常流行且开源的分词器 JIE词器。JIEBA 分词有以下两个特点[33]:(1)dict.txt 词典是 JIEBA 分词器中自带的词典,里面包含 2 万余条词,对词语的次数和词性做了标记,是根据人民日报等语料训练生成的结果。(2)给定待分词的句子,使用正则表达式获取连续的字符,将其切分成短语列每个短语使用有向无环图(Directed Acyclic Graph,DAG)查字典和动态规划,得大概率路径。而对于未被查到的词语,需要组合成一个新的片段短语,使用隐马尔模型(Hidden Markov Model,HMM)进行分词,即识别字典外的新词。
【参考文献】:
期刊论文
[1]多因素影响特征选择的短文本分类方法[J]. 李文慧,张英俊,潘理虎. 计算机系统应用. 2018(12)
[2]基于局部模型加权融合的Top-N电影推荐算法[J]. 汤颖,孙康高,秦绪佳,周建美. 计算机科学. 2018(S2)
[3]一种知识图谱的排序学习个性化推荐算法[J]. 杨晋吉,胡波,王欣明,伍昱燊,赵淦森. 小型微型计算机系统. 2018(11)
[4]基于聚类的非负矩阵分解推荐算法研究[J]. 骆孜,龙华,邵玉斌,杜庆治. 通信技术. 2018(11)
[5]基于用户兴趣和项目周期的协同过滤推荐算法[J]. 叶锡君,袁培森,郭小清,闫智慧,何婧. 南京理工大学学报. 2018(04)
[6]基于内容的推荐与协同过滤融合的新闻推荐分析与探究[J]. 许媛萍. 新闻研究导刊. 2018(13)
[7]融合用户特征与偏好的个性化微博推荐[J]. 黄贤英,鲁燃,王智昊. 信息技术与信息化. 2018(Z1)
[8]中文文本特征选择方法研究综述[J]. 徐泓洋,杨国为. 工业控制计算机. 2017(11)
[9]基于卷积神经网络的自然场景中数字识别[J]. 周成伟. 计算机技术与发展. 2017(11)
[10]TensorFlow平台下的视频目标跟踪深度学习模型设计[J]. 刘帆,刘鹏远,李兵,徐彬彬. 激光与光电子学进展. 2017(09)
硕士论文
[1]基于Hadoop及深度学习的电商个性化推荐平台的设计与实现[D]. 赵正阳.北京交通大学 2018
[2]基于用户评论数据的信息提炼技术研究[D]. 孙凯威.浙江大学 2017
[3]某高校专利管理和服务工作实证研究[D]. 蒯瑜.湖南大学 2017
[4]基于电信DPI数据的电商用户行为分析[D]. 李子森.北京邮电大学 2017
[5]基于分类方法的Web服务QoS预测技术研究[D]. 任迪.杭州电子科技大学 2017
[6]基于用户多维社交网络模型的推荐算法研究[D]. 李墨.大连海事大学 2017
[7]基于支持向量机的海量文本分类并行化技术研究[D]. 任倚天.北京理工大学 2016
[8]基于多示例多标记学习的微博细粒度情感分析研究与实现[D]. 王明强.东北大学 2015
[9]汉英文本级句子对齐技术的研究[D]. 孙坤杰.东北大学 2014
[10]基于自动标注训练集的中文微博情感分类的研究[D]. 刘伟朋.合肥工业大学 2014
本文编号:3441924
【文章来源】:上海应用技术大学上海市
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
获取数据的网站Fig.3.1WebSiteforobtainingdata
图 3.2 专利的具体信息Fig.3.2 Specific information on patents通过以上流程,我们爬取了安全领域的专利文章 122945 篇,主要包括专利的标题,专利的申请人,专利的发明人,专利的 IPC 分类号和专利的摘要等信息,为下一步的工作奠定了坚实的基础。目前专利的分类按照《国际专利分类表(IPC 分类)》的标准执行[32]。IPC 分类号是根据《国际专利分类斯特拉斯堡协定》编制的,其作为国际通用的专利文献分类和检索工具,为世界各国所必备。目前我国也使用这套国际专利分类体系,下表为专利按“部”分类表[32],见表 3.1。表 3.1 国际专利分类表(IPC 分类)Table3.1 International Patent Classification (IPC Classification)部 专利范围A 人类生活必须B 作业;运输C 化学;冶金
图 3.3 原始数据详细信息Fig.3.3 Raw data details2 文本预处理2.1 中文分词处理中文分词是文本处理中的基本步骤。本文使用目前非常流行且开源的分词器 JIE词器。JIEBA 分词有以下两个特点[33]:(1)dict.txt 词典是 JIEBA 分词器中自带的词典,里面包含 2 万余条词,对词语的次数和词性做了标记,是根据人民日报等语料训练生成的结果。(2)给定待分词的句子,使用正则表达式获取连续的字符,将其切分成短语列每个短语使用有向无环图(Directed Acyclic Graph,DAG)查字典和动态规划,得大概率路径。而对于未被查到的词语,需要组合成一个新的片段短语,使用隐马尔模型(Hidden Markov Model,HMM)进行分词,即识别字典外的新词。
【参考文献】:
期刊论文
[1]多因素影响特征选择的短文本分类方法[J]. 李文慧,张英俊,潘理虎. 计算机系统应用. 2018(12)
[2]基于局部模型加权融合的Top-N电影推荐算法[J]. 汤颖,孙康高,秦绪佳,周建美. 计算机科学. 2018(S2)
[3]一种知识图谱的排序学习个性化推荐算法[J]. 杨晋吉,胡波,王欣明,伍昱燊,赵淦森. 小型微型计算机系统. 2018(11)
[4]基于聚类的非负矩阵分解推荐算法研究[J]. 骆孜,龙华,邵玉斌,杜庆治. 通信技术. 2018(11)
[5]基于用户兴趣和项目周期的协同过滤推荐算法[J]. 叶锡君,袁培森,郭小清,闫智慧,何婧. 南京理工大学学报. 2018(04)
[6]基于内容的推荐与协同过滤融合的新闻推荐分析与探究[J]. 许媛萍. 新闻研究导刊. 2018(13)
[7]融合用户特征与偏好的个性化微博推荐[J]. 黄贤英,鲁燃,王智昊. 信息技术与信息化. 2018(Z1)
[8]中文文本特征选择方法研究综述[J]. 徐泓洋,杨国为. 工业控制计算机. 2017(11)
[9]基于卷积神经网络的自然场景中数字识别[J]. 周成伟. 计算机技术与发展. 2017(11)
[10]TensorFlow平台下的视频目标跟踪深度学习模型设计[J]. 刘帆,刘鹏远,李兵,徐彬彬. 激光与光电子学进展. 2017(09)
硕士论文
[1]基于Hadoop及深度学习的电商个性化推荐平台的设计与实现[D]. 赵正阳.北京交通大学 2018
[2]基于用户评论数据的信息提炼技术研究[D]. 孙凯威.浙江大学 2017
[3]某高校专利管理和服务工作实证研究[D]. 蒯瑜.湖南大学 2017
[4]基于电信DPI数据的电商用户行为分析[D]. 李子森.北京邮电大学 2017
[5]基于分类方法的Web服务QoS预测技术研究[D]. 任迪.杭州电子科技大学 2017
[6]基于用户多维社交网络模型的推荐算法研究[D]. 李墨.大连海事大学 2017
[7]基于支持向量机的海量文本分类并行化技术研究[D]. 任倚天.北京理工大学 2016
[8]基于多示例多标记学习的微博细粒度情感分析研究与实现[D]. 王明强.东北大学 2015
[9]汉英文本级句子对齐技术的研究[D]. 孙坤杰.东北大学 2014
[10]基于自动标注训练集的中文微博情感分类的研究[D]. 刘伟朋.合肥工业大学 2014
本文编号:3441924
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3441924.html
最近更新
教材专著