基于暗数据的服务推荐算法研究
发布时间:2021-11-15 17:28
当今社会最为火热的词汇就是大数据,它不仅受到学术界的研究,也被政府所追捧,更得到商界的高度重视。整个社会进入了“大数据”时代,数据似乎成了促进社会发展的最强大动力。本文通过介绍了具有高比例大数据且价值巨大但难以收集,分析和应用的暗数据,着重分析了推荐暗数据应用的方式和方法,同时,互联网上每天都有爆炸式增长的信息,个性化的服务推荐系统可以让用户快捷、方便地得到想要的信息。本课题采用用户移动端相册作为暗数据集。首先,采用实体关系抽取的办法将非结构化的短文本构建成三元组的形式,然后通过知识融合的办法将相似或者相同节点进行融合,建立知识图谱。接着使用改进的TextRank算法得到的关键词在经过Word2Vec训练后得到的主题模型中表示为词向量,将其中的待消歧实体与WikiPedia语料库得到候选实体集进行相似度对比,得到最终的候选实体,完成实体消歧。通过与外部知识库融合,得到本地个性化知识库。并使用PTransE算法对关系路径进行三元组构建,将实体和关系嵌入到低维空间中。通过AP算法,对现有知识图谱边的关系进行聚类,实现对知识图谱的补全和预测。并基于以上研究成果,设计并开发了基于暗数据的服务推...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
世界各国的黑暗数据占比图
15. end for;16. return V图2-1 用户兴趣主体与关键字的关系2.4 数据存储本课题对暗数据本体存储使用NOSQL图形数据库Neo4j,由于Neo4j具有良好的图形数据模型设计,速度非常快。对于连接的数据操作,neo4j的查询速度远快于传统数据库。Neo4j服务器可以承载亿级量级的Node和Relation。即使节点不能满足数据需求,也可以通过分布式集群进行操作。Neo4j通过点Node和边Relation进行数据存储。其中Node与Relation是一对多关系,即Node之间可以有多个Relation,但一个Relation只能连接一对Node。本课题中对存储在Neo4j中的Entity和Relation的存储形式如下:1)Entity{concept:xxx,NodeId:xxx }2)Relation{relation:xxx,Id:xxx }2.5 实验分析2.5.1 暗数据知识抽取效果分析本体构建从暗数据集短文本中进行实体关系抽取得到Entity和Realation来构成三元组(head
哈尔滨工业大学工程硕士学位论文的相似性。Word2Vec将神经网络与概率模型相结合,实现了CBOW(连续词袋模型)和Skip-gram(连续Skip-gram模型)。如图3-1所示:CBOW根据上下文语义环境预测单词,完成补全,而Skip-gram与CBOW相反,它通过当前单词推测上下文单词的语义。
【参考文献】:
期刊论文
[1]基于依存句法分析的社会媒体文本挖掘方法——以饮食习惯特色分析为例[J]. 任彬,车万翔,刘挺. 中文信息学报. 2014(06)
[2]按需动态组织的知件库系统[J]. 施心悦,鲁扬扬,李戈,金芝. 计算机科学与探索. 2015(06)
[3]一种目标感知的可配置业务流程分析方法[J]. 黄贻望,何克清,冯在文,黄颖. 电子学报. 2014(10)
[4]一种面向社区型问句检索的主题翻译模型[J]. 张伟男,张宇,刘挺. 计算机学报. 2015(02)
[5]基于概率主题模型的物联网服务发现[J]. 魏强,金芝,许焱. 软件学报. 2014(08)
[6]问题驱动的需求捕获中问题分析与解决技术研究[J]. 王波,赵海燕,张伟,金芝,梅宏. 计算机研究与发展. 2013(07)
[7]资源自适应的实时新闻推荐系统[J]. 唐朝. 计算机工程与设计. 2010(20)
[8]基于数据场的大规模本体映射[J]. 仲茜,李涓子,唐杰,周立柱. 计算机学报. 2010(06)
本文编号:3497208
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
世界各国的黑暗数据占比图
15. end for;16. return V图2-1 用户兴趣主体与关键字的关系2.4 数据存储本课题对暗数据本体存储使用NOSQL图形数据库Neo4j,由于Neo4j具有良好的图形数据模型设计,速度非常快。对于连接的数据操作,neo4j的查询速度远快于传统数据库。Neo4j服务器可以承载亿级量级的Node和Relation。即使节点不能满足数据需求,也可以通过分布式集群进行操作。Neo4j通过点Node和边Relation进行数据存储。其中Node与Relation是一对多关系,即Node之间可以有多个Relation,但一个Relation只能连接一对Node。本课题中对存储在Neo4j中的Entity和Relation的存储形式如下:1)Entity{concept:xxx,NodeId:xxx }2)Relation{relation:xxx,Id:xxx }2.5 实验分析2.5.1 暗数据知识抽取效果分析本体构建从暗数据集短文本中进行实体关系抽取得到Entity和Realation来构成三元组(head
哈尔滨工业大学工程硕士学位论文的相似性。Word2Vec将神经网络与概率模型相结合,实现了CBOW(连续词袋模型)和Skip-gram(连续Skip-gram模型)。如图3-1所示:CBOW根据上下文语义环境预测单词,完成补全,而Skip-gram与CBOW相反,它通过当前单词推测上下文单词的语义。
【参考文献】:
期刊论文
[1]基于依存句法分析的社会媒体文本挖掘方法——以饮食习惯特色分析为例[J]. 任彬,车万翔,刘挺. 中文信息学报. 2014(06)
[2]按需动态组织的知件库系统[J]. 施心悦,鲁扬扬,李戈,金芝. 计算机科学与探索. 2015(06)
[3]一种目标感知的可配置业务流程分析方法[J]. 黄贻望,何克清,冯在文,黄颖. 电子学报. 2014(10)
[4]一种面向社区型问句检索的主题翻译模型[J]. 张伟男,张宇,刘挺. 计算机学报. 2015(02)
[5]基于概率主题模型的物联网服务发现[J]. 魏强,金芝,许焱. 软件学报. 2014(08)
[6]问题驱动的需求捕获中问题分析与解决技术研究[J]. 王波,赵海燕,张伟,金芝,梅宏. 计算机研究与发展. 2013(07)
[7]资源自适应的实时新闻推荐系统[J]. 唐朝. 计算机工程与设计. 2010(20)
[8]基于数据场的大规模本体映射[J]. 仲茜,李涓子,唐杰,周立柱. 计算机学报. 2010(06)
本文编号:3497208
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3497208.html