文本数据实时多维检索系统设计与实现
发布时间:2021-08-29 10:46
随着网络和信息技术的不断普及,全球大数据进入高速发展时期,数据总量每年增长50%。其中以社交平台(微信、微博等)为代表的文本数据占了绝大部分。对于包含大量信息的海量文本数据,用常规文本检索方法通常不能取得理想的效果。如何对海量文本数据有效检索,以便进一步深入挖掘数据潜在价值亟待解决。业界为此进行了多方面的探索,其中微软Concept Graph技术在此领域研究较深入且有别于传统的文本数据解决思路。微软概念图旨在将文本格式实体映射到具有一些概率的语义概念类别中。本文结合现有数据爬取、文本处理等技术,爬取电商扶贫实时文本数据,与微软Concept Graph技术相结合提出一种全新的抽取实时文本数据维度的新思路,并结合抽取维度信息构建文本数据多维检索系统。该方案从文本数据的获取、维度抽取及多维检索系统构建两方面进行研究:1)设计文本数据源存储格式规范,根据系统存储规范及多维检索系统需求设计数据采集模块。研究微博、微信平台的反爬措施,结合现有爬虫技术,将Redis内存数据库、Scrapy框架、云打码平台等技术相结合,细化爬取时间片,构造用户可自定义主题关键字的百万级数据量高性能健壮爬虫,可以实...
【文章来源】:中南财经政法大学湖北省 211工程院校 教育部直属院校
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
Mongo数据库存储结构
爬虫基本流程
Scrapy框架流程介绍第三节文档主题生成模型技术
【参考文献】:
期刊论文
[1]我国精准扶贫的最优模式与关键路径分析[J]. 宋宸刚,丛雅静. 调研世界. 2018(03)
[2]面向中文微博情感分析的多特征融合方法研究[J]. 宋沛玉,邢延. 电子世界. 2018(02)
[3]BEPC-Ⅱ运行数据Web查询应用设计[J]. 乔予思,雷革. 核电子学与探测技术. 2017(10)
[4]基于Scrapy的深层网络爬虫研究[J]. 刘宇,郑成焕. 软件. 2017(07)
[5]更好推进精准扶贫精准脱贫 确保如期实现脱贫攻坚目标[J]. 实践(党的教育版). 2017(03)
[6]Redis在即时通讯系统中的应用[J]. 李鹏鹏,郑扬飞,刘玉龙. 软件. 2017(01)
[7]基于卡方距离改进的WLAN室内定位算法[J]. 陶峥,王洪玉. 计算机技术与发展. 2016(09)
[8]基于通信运营商数据的大数据实时流处理系统[J]. 朱奕健,张正卿. 中国新通信. 2016(03)
[9]MongoDB在气象传感器数据处理中的应用[J]. 白长清,刘敏. 软件. 2015(11)
[10]基于redis的简易应用下载系统的设计与实现[J]. 武红宽,申敏,马怡伟. 信息通信. 2015(09)
博士论文
[1]云模型在文本挖掘应用中的关键问题研究[D]. 代劲.重庆大学 2011
硕士论文
[1]呼叫中心CTI Pool的研究与设计[D]. 宫雪.内蒙古大学 2018
[2]私有云中策略生成系统的研究与实现[D]. 闫祎颖.北京邮电大学 2018
[3]基于分布式的IT综合监控平台的设计和实现[D]. 王强.北京交通大学 2017
[4]基于Python开发预警机系统检测设计与研究[D]. 孔德民.哈尔滨理工大学 2017
[5]基于双重遗传的k-means聚类算法在文本挖掘中的应用[D]. 文静.大连海事大学 2017
[6]基于神经网络的复述抽取和重排序研究[D]. 孙海鹏.哈尔滨工业大学 2015
[7]一号店网络负载均衡系统的设计与实现[D]. 刘览.东北大学 2015
[8]移动应用的web与native混合编程模式研究与实现[D]. 王阅蓁.电子科技大学 2015
[9]基于Django的日程协作系统的设计与实现[D]. 郑成刚.大连理工大学 2014
[10]广东电力企业人事管理信息系统的设计与实现[D]. 王晟.吉林大学 2014
本文编号:3370508
【文章来源】:中南财经政法大学湖北省 211工程院校 教育部直属院校
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
Mongo数据库存储结构
爬虫基本流程
Scrapy框架流程介绍第三节文档主题生成模型技术
【参考文献】:
期刊论文
[1]我国精准扶贫的最优模式与关键路径分析[J]. 宋宸刚,丛雅静. 调研世界. 2018(03)
[2]面向中文微博情感分析的多特征融合方法研究[J]. 宋沛玉,邢延. 电子世界. 2018(02)
[3]BEPC-Ⅱ运行数据Web查询应用设计[J]. 乔予思,雷革. 核电子学与探测技术. 2017(10)
[4]基于Scrapy的深层网络爬虫研究[J]. 刘宇,郑成焕. 软件. 2017(07)
[5]更好推进精准扶贫精准脱贫 确保如期实现脱贫攻坚目标[J]. 实践(党的教育版). 2017(03)
[6]Redis在即时通讯系统中的应用[J]. 李鹏鹏,郑扬飞,刘玉龙. 软件. 2017(01)
[7]基于卡方距离改进的WLAN室内定位算法[J]. 陶峥,王洪玉. 计算机技术与发展. 2016(09)
[8]基于通信运营商数据的大数据实时流处理系统[J]. 朱奕健,张正卿. 中国新通信. 2016(03)
[9]MongoDB在气象传感器数据处理中的应用[J]. 白长清,刘敏. 软件. 2015(11)
[10]基于redis的简易应用下载系统的设计与实现[J]. 武红宽,申敏,马怡伟. 信息通信. 2015(09)
博士论文
[1]云模型在文本挖掘应用中的关键问题研究[D]. 代劲.重庆大学 2011
硕士论文
[1]呼叫中心CTI Pool的研究与设计[D]. 宫雪.内蒙古大学 2018
[2]私有云中策略生成系统的研究与实现[D]. 闫祎颖.北京邮电大学 2018
[3]基于分布式的IT综合监控平台的设计和实现[D]. 王强.北京交通大学 2017
[4]基于Python开发预警机系统检测设计与研究[D]. 孔德民.哈尔滨理工大学 2017
[5]基于双重遗传的k-means聚类算法在文本挖掘中的应用[D]. 文静.大连海事大学 2017
[6]基于神经网络的复述抽取和重排序研究[D]. 孙海鹏.哈尔滨工业大学 2015
[7]一号店网络负载均衡系统的设计与实现[D]. 刘览.东北大学 2015
[8]移动应用的web与native混合编程模式研究与实现[D]. 王阅蓁.电子科技大学 2015
[9]基于Django的日程协作系统的设计与实现[D]. 郑成刚.大连理工大学 2014
[10]广东电力企业人事管理信息系统的设计与实现[D]. 王晟.吉林大学 2014
本文编号:3370508
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3370508.html
最近更新
教材专著