基于知识图谱的人物推荐研究
发布时间:2020-12-22 12:21
如今网络上社交网络发展日趋繁荣,基于社交网络上的发掘人与人之间的研究越来越多,但目前大多数的研究是基于标签和内容方面的推荐,存在过度推荐和过度专业化的问题,并没有考虑社交网络中其它有关联的内容的影响,这样很难全方面准确地推荐用户感兴趣的人。因此,本文主要知识图谱构建、用户画像构建和人物推荐算法三个层面开展相关研究。针对构建拥有丰富知识的知识图谱的问题,本文提出了一种基于微软开源数据集构建知识图谱的方法。目前大多数研究中构建知识图谱的方法大多来源单一数据通道,本文分析了AngleList网站与用户之间的关系,提出了一种从AngleList出发获取同一用户的Twitter、Facebook、Linkedin多通道数据的方法,进而提出了基于微软开源数据集和多通道数据集的实体识别和实体关系抽取的方法,最后提出了一种基于实体和实体关系构建完整知识图谱的方法,保证了知识图谱拥有知识的完整性和丰富性。针对基于知识图谱准确构建用户画像的问题,本文提出了一种基于知识图谱中属于用户的节点之间权重构建用户画像方法。本文提出了一种根据用户发表的每条短文本提取兴趣主题和关键词的方法,保证了细粒度地提取,这两部分...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
本文的研究路线图
图 2-1 数据库中表中缺失值有一些用户的常驻地址缺失,会为后面的分析带来困难。为了解决这个问题,对于某一通道地址的缺失,可以首先去其他通道去查找是否有这个地址,如果存在那么直接采用其它通道的地址进行填充。如果其它的数据通道也不存在这个地址,这时候考虑从用户发表的内容中去找到用户的常驻地址。除此之外,还有用户发布推文时提及的地址,这些地址可以代替用户的常驻地址,将其抽取出来,统计一下出现频率最高的地址,将其作为用户的常驻地址。其次,由于社交网络中一些信息的填写比较随意,规范性不强,通常同一个地名有很多表达方式,如一些用户的地址很简单,一个城市的完整名称,但有些用户就用的是缩写或者是填写了市、州、国家。针对用户使用缩写的情况,首先是找到城市或者州的缩写和全称的对照表,利用对照表进行名称的还原。爬取到的数据当中,用户发表的时间规范不一样,为了方便实验研究,将时间作一个统一的规范化处理,规范化处理后的结果示例:2019-06-03 12:00:00。2.1.3 数据融合首先是三通道中的用户名的合并,三个社交网站通道的用户名各不相同,
页也同时具有 Twitter、Facebook 和 Linkedin三个个人主页都是从 AngleList 的网站上获主页 可以找到这三个社交网站的个人主页页作为用户的个人主页。分析din、Facebook、Twitter 为数据获取通道,存储 51381 条用户数据,其中,Linkedin 有 2132 条用户数据,及 Twitter 的 47117 条用户数据-2 所示:知,Linkedin 和 Facbook 的用户数据一致,而这是由于用户的在 Twitter 中会关注一些其他数据来进行人物推荐的效果评估,这就使得 和 Facebook 比较多。
【参考文献】:
期刊论文
[1]网络爬虫反爬策略研究[J]. 胡俊潇,陈国伟. 科技创新与应用. 2019(15)
[2]一种基于主题判定的网页元素XPath定位器生成方法[J]. 张弛,高建华. 小型微型计算机系统. 2019(04)
[3]基于PageRank与HITS的改进算法的网页排名优化[J]. 库珊,刘钊. 武汉科技大学学报. 2019(02)
[4]Python代理IP定向采集爬虫的设计与实现[J]. 白杨. 中国新通信. 2019(01)
[5]一种基于Neo4j图数据库的模糊查询研究与实现[J]. 李雪. 计算机技术与发展. 2018(11)
[6]基于TextRank的单文本关键字提取算法[J]. 朱必熙. 兰州工业学院学报. 2018(03)
[7]基于TF-IDF算法的文本特征词提取模型[J]. 米硕,孙瑞彬,明晓,赵汝程. 中国战略新兴产业. 2017(40)
[8]基于Webdriver爬虫技术的研究[J]. 贺杰. 科技广场. 2016(10)
博士论文
[1]面向大规模知识图谱的弹性语义推理方法研究及应用[D]. 陈曦.浙江大学 2017
硕士论文
[1]基于Selenium的网页自动化操作软件设计与实现[D]. 王馨亚.大连理工大学 2017
[2]基于Neo4j图数据库的社交网络数据的研究与应用[D]. 张凤军.湖南大学 2016
本文编号:2931762
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
本文的研究路线图
图 2-1 数据库中表中缺失值有一些用户的常驻地址缺失,会为后面的分析带来困难。为了解决这个问题,对于某一通道地址的缺失,可以首先去其他通道去查找是否有这个地址,如果存在那么直接采用其它通道的地址进行填充。如果其它的数据通道也不存在这个地址,这时候考虑从用户发表的内容中去找到用户的常驻地址。除此之外,还有用户发布推文时提及的地址,这些地址可以代替用户的常驻地址,将其抽取出来,统计一下出现频率最高的地址,将其作为用户的常驻地址。其次,由于社交网络中一些信息的填写比较随意,规范性不强,通常同一个地名有很多表达方式,如一些用户的地址很简单,一个城市的完整名称,但有些用户就用的是缩写或者是填写了市、州、国家。针对用户使用缩写的情况,首先是找到城市或者州的缩写和全称的对照表,利用对照表进行名称的还原。爬取到的数据当中,用户发表的时间规范不一样,为了方便实验研究,将时间作一个统一的规范化处理,规范化处理后的结果示例:2019-06-03 12:00:00。2.1.3 数据融合首先是三通道中的用户名的合并,三个社交网站通道的用户名各不相同,
页也同时具有 Twitter、Facebook 和 Linkedin三个个人主页都是从 AngleList 的网站上获主页 可以找到这三个社交网站的个人主页页作为用户的个人主页。分析din、Facebook、Twitter 为数据获取通道,存储 51381 条用户数据,其中,Linkedin 有 2132 条用户数据,及 Twitter 的 47117 条用户数据-2 所示:知,Linkedin 和 Facbook 的用户数据一致,而这是由于用户的在 Twitter 中会关注一些其他数据来进行人物推荐的效果评估,这就使得 和 Facebook 比较多。
【参考文献】:
期刊论文
[1]网络爬虫反爬策略研究[J]. 胡俊潇,陈国伟. 科技创新与应用. 2019(15)
[2]一种基于主题判定的网页元素XPath定位器生成方法[J]. 张弛,高建华. 小型微型计算机系统. 2019(04)
[3]基于PageRank与HITS的改进算法的网页排名优化[J]. 库珊,刘钊. 武汉科技大学学报. 2019(02)
[4]Python代理IP定向采集爬虫的设计与实现[J]. 白杨. 中国新通信. 2019(01)
[5]一种基于Neo4j图数据库的模糊查询研究与实现[J]. 李雪. 计算机技术与发展. 2018(11)
[6]基于TextRank的单文本关键字提取算法[J]. 朱必熙. 兰州工业学院学报. 2018(03)
[7]基于TF-IDF算法的文本特征词提取模型[J]. 米硕,孙瑞彬,明晓,赵汝程. 中国战略新兴产业. 2017(40)
[8]基于Webdriver爬虫技术的研究[J]. 贺杰. 科技广场. 2016(10)
博士论文
[1]面向大规模知识图谱的弹性语义推理方法研究及应用[D]. 陈曦.浙江大学 2017
硕士论文
[1]基于Selenium的网页自动化操作软件设计与实现[D]. 王馨亚.大连理工大学 2017
[2]基于Neo4j图数据库的社交网络数据的研究与应用[D]. 张凤军.湖南大学 2016
本文编号:2931762
本文链接:https://www.wllwen.com/tushudanganlunwen/2931762.html