基于大数据处理技术的“专家机器人”研究
本文关键词:基于大数据处理技术的“专家机器人”研究,,由笔耕文化传播整理发布。
【摘要】:现如今互联网上的学术论文、期刊文献、专利数据库、网络媒体、社交平台(微信、微博、博客、论坛)等载体上蕴藏着多个领域的潜藏知识,文中将这些载体涉及的专业领域称之为“专家领域”。“专家领域”中蕴藏着如:专家研究成果、学术观点、工作动态及最新言论等“专家数据”。如果合理的组织、运用这些“专家数据”,将得到远高于数据本身的更有价值的资源。“专家机器人”的研究就是对这些专家数据资源的分析、挖掘的过程。通过对专家机器人的研究来深入提取、解析海量数据中蕴藏的有用信息,并将其转换为可理解,可用的知识资源。本文是基于大数据的专家机器人研究,实际上是大数据研究在专家领域的一个缩影,本文是分别从数据处理速度、数据关联挖掘、数据应用质量三方面,对互联网中涌现的专家数据进行的研究。本文具体研究工作包括以下几个方面:第一,详细分析了Hadoop平台,并重点介绍了MapReduce分布式编程模型以及HDFS分布式文件系统。同时详细描述了全文搜索引擎的工作原理及索引构建流程,由于目前专家数据的激增,以及单机构建索引在效率和安全上的不足,提出了基于MapReduce的并行索引构建思想。第二,描述了基于网页的评分算法PageRank算法的工作原理,及其通过幂法迭代求解PR值的过程。为提高“专家领域”的学术索引结果质量,本文提出适用于“专家领域”的E-PeopleRank评分算法,目的是通过对专家打分排名,衡量各领域专家在检索结果中占的比重。E-PeopleRank算法改进了原算法主题无关性缺点,并更换了原算法模型的映射关系。考虑迭代中数据增长情况,本文将E-PeopleRank算法引入到MapReduce的编程架构中,并详细描述了各阶段的具体任务分配。第三,为了实现用户的个性化搜索,文中详细描述了协同过滤算法的具体原理及算法模型。为解决协同过滤算法中未考虑时间变化因素的问题,提出了适用于用户兴趣变化的协同过滤推荐算法,文中引入了兴趣偏移函数,对协同过滤算法的推荐模型进行了改进,随后详细描述了算法改进的具体过程。第四,通过搭建Hadoop集群,为文中提出的基于MapReduce机制的索引构建,算法改进等提供运行环境,验证文中提出的各种改进思想的可行性。最后,总结了本文的研究工作,并对今后要研究的内容进行了概述。
【关键词】:专家数据挖掘分布式索引构建 PageRank 算法协同过滤
【学位授予单位】:长春工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
- 摘要3-4
- Abstract4-8
- 第一章 绪论8-14
- 1.1 课题的研究背景及意义8-9
- 1.2 国内外研究现状9-12
- 1.2.1 全文检索研究现状9-10
- 1.2.2 PageRank算法研究现状10-11
- 1.2.3 协同过滤算法研究现状11-12
- 1.3 本文研究内容及章节安排12-14
- 第二章 基于MapReduce的专家数据索引构建14-25
- 2.1 Hadoop分布式计算平台及其核心架构14-18
- 2.1.1 Hadoop分布式计算平台概述14-15
- 2.1.2 Hadoop中的MapReduce15-16
- 2.1.3 HDFS分布式文件系统16-18
- 2.2 Lucene全文检索框架18-23
- 2.2.1 Lucene概述18-19
- 2.2.2 Lucene全文检索原理19-20
- 2.2.3 Lucene索引构建20-21
- 2.2.4 Lucene搜索21-23
- 2.3 基于MapReduce的专家数据索引构建23-24
- 2.3.1 专家数据索引构建思想概述23
- 2.3.2 基于MapReduce的分布式索引构建23-24
- 2.4 本章小结24-25
- 第三章 基于改进PageRank算法的领域核心专家评分25-34
- 3.1 PageRank算法概述25-26
- 3.1.1 PageRank算法简介25
- 3.1.2 PageRank算法优点25-26
- 3.1.3 PageRank算法缺点26
- 3.2 PageRank算法分析26-30
- 3.2.1 PageRank算法原理26-28
- 3.2.2 幂法求解PageRank值28-30
- 3.3 PageRank算法改进30-33
- 3.3.1 改进思想概述30
- 3.3.2 算法详细设计30-32
- 3.3.3 基于MapReduce的算法实现32-33
- 3.4 小结33-34
- 第四章 基于改进协同过滤算法的专家推荐34-41
- 4.1 协同过滤算法概述34
- 4.2 协同过滤算法分类34-38
- 4.2.1 基于用户的协同过滤算法34-35
- 4.2.2 基于项目的协同过滤算法35-38
- 4.3 基于用户兴趣变化的算法改进38-40
- 4.3.1 改进思想38
- 4.3.2 推荐模型的改进38-39
- 4.3.3 算法实现39-40
- 4.4 小结40-41
- 第五章 实验结果及分析41-50
- 5.1 实验环境及实验数据41-43
- 5.1.1 实验环境41
- 5.1.2 系统环境搭建41-43
- 5.1.3 实验数据43
- 5.2 实验结果及分析43-49
- 5.2.1 基于MapReduce的专家索引构建43-45
- 5.2.2 E-PeopleRank算法验证45-47
- 5.2.3 基于用户兴趣变化的推荐算法验证47-49
- 5.3 小结49-50
- 第六章 总结与展望50-52
- 6.1 本文总结50
- 6.2 未来展望50-52
- 致谢52-53
- 参考文献53-56
- 作者简介56
- 攻读硕士学位期间研究成果56
【参考文献】
中国期刊全文数据库 前10条
1 姬朝阳;;一种基于标签耦合分析的微博用户关系挖掘方法[J];情报杂志;2015年02期
2 晋民杰;王快;范英;陈敏娜;王雯雯;;一种基于相似系数的权重确定方法[J];太原科技大学学报;2015年01期
3 周萍;张子柯;章恬;赵方瑜;;一种基于社会化媒体和社会网络结构的混合推荐模型[J];上海理工大学学报;2014年03期
4 张学亮;陈金勇;陈勇;;基于Hadoop云计算平台的海量文本处理研究[J];无线电通信技术;2014年01期
5 平宇;向阳;张波;黄寅飞;;基于MapReduce的并行PageRank算法实现[J];计算机工程;2014年02期
6 朱潜;吴辰铌;朱志良;刘洪娟;;Hadoop云平台下Nutch中文分词的研究与实现[J];小型微型计算机系统;2013年12期
7 赵发珍;;网络社区网站共链分析[J];现代情报;2012年11期
8 罗宁;徐俊刚;郭洪韬;;基于Lucene的中文分词模块的设计和实现[J];电子技术;2012年09期
9 谌超;强保华;石龙;;基于Hadoop MapReduce的大规模数据索引构建与集群性能分析[J];桂林电子科技大学学报;2012年04期
10 金松昌;杨树强;樊华;刘斐;;面向大型关键业务的Hadoop云计算平台数据安全策略研究[J];信息网络安全;2012年08期
中国博士学位论文全文数据库 前1条
1 孙小华;协同过滤系统的稀疏性与冷启动问题研究[D];浙江大学;2005年
中国硕士学位论文全文数据库 前7条
1 李波;基于Hadoop的知识管理系统设计与实现[D];重庆大学;2014年
2 赵蒙;知识学习社交网络的研究与实现[D];北京邮电大学;2014年
3 刘恒友;基于时间效应的推荐算法研究[D];哈尔滨工业大学;2013年
4 张超;基于MapReduce的分布式搜索引擎研究与实现[D];太原理工大学;2012年
5 李稚楹;基于网页内容和时间反馈的网页排序PageRank算法研究[D];重庆理工大学;2012年
6 孙敏;改进用户模型的协同过滤推荐算法[D];重庆大学;2012年
7 李国;基于聚类和协同过滤的个性化推荐算法研究[D];昆明理工大学;2012年
本文关键词:基于大数据处理技术的“专家机器人”研究,由笔耕文化传播整理发布。
本文编号:431759
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/431759.html