当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Scrapy爬取电商平台数据及自动问答系统的构建

发布时间:2017-09-12 14:07

  本文关键词:基于Scrapy爬取电商平台数据及自动问答系统的构建


  更多相关文章: 网络爬虫 Scrapy 可视化技术 D3 中文自动问答系统


【摘要】:随着大数据时代的来临,互联网信息急剧增长,依赖关键字进行搜索的传统搜索引擎技术已日益不能满足用户快速准确检索信息的需求。自动问答系统作为信息检索领域的一种高级形式,.已然成为近年来研究的热点和重点。研究构建中文自动问答系统,满足用户直接以自然语言提出问题并能快速准确地获取答案,有着十分重要的意义。本文利用网络爬虫技术,从电商平台爬取商品数据信息,继而构建电商平台的中文自动问答系统以方便用户准确获取相关商品信息,主要工作如下:首先,选用Python语言编写的开源爬虫框架Scrapy,研究该框架的搭建和使用,并选取网易考拉海购平台作为本文研究对象,分析考拉上商品的数据结构,最后基于Scrapy框架编写网络爬虫程序并成功爬取考拉所有商品数据。其次,构建Web项目,并将项目发布到开源的中间件Tomcat上,这样用户只需在浏览器中输入相应的链接即可看到考拉商品数据的动态关系图谱并直观的看到商品的各类信息,实现了商品的可视化展示。再次,构建考拉商品知识的词典和词性库,实现了结合正向最大匹配算法和逆向最大匹配算法的分词算法,自定义了有特色关键词提取规则,并实现了相似度计算的编辑距离算法,最终设计实现了一款基于考拉商品知识库的中文自动问答系统工具KOALAASK。最后,对KOALAASK系统工具进行了一系列功能性的测验,实验结果表明该系统工具具备高性能,反应迅速的特点。实验中通过统计分析的方法,即对799个不同领域的商品信息进行提问并获取答案,计算相应准确率,证明了系统工具在该特定商品知识领域拥有相当高的准确率,具有不错的实用性。
【关键词】:网络爬虫 Scrapy 可视化技术 D3 中文自动问答系统
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
  • 摘要5-6
  • Abstract6-10
  • 第一章 绪论10-17
  • 1.1 课题研究背景10-11
  • 1.2 研究现状11-15
  • 1.2.1 网络爬虫的研究现状11-12
  • 1.2.2 问答系统的研究现状12-14
  • 1.2.3 存在的问题14-15
  • 1.3 本文的研究目标与工作15
  • 1.4 论文的组织结构15-17
  • 第二章 研究基础17-27
  • 2.1 网络爬虫介绍17-18
  • 2.1.1 网络爬虫的工作原理17
  • 2.1.2 网页去重17-18
  • 2.2 Scrapy的详细介绍18-20
  • 2.3 正则表达式20-22
  • 2.4 可视化技术22-24
  • 2.4.1 可视化介绍22-23
  • 2.4.2 D3简介23-24
  • 2.5 自动问答系统24-26
  • 2.5.1 问答系统的原理24
  • 2.5.2 问答系统关键技术24-26
  • 2.6 本章小结26-27
  • 第三章 爬取考拉数据的自动问答系统整体框架27-31
  • 3.1 总体架构设计27-28
  • 3.2 爬虫模块28
  • 3.3 可视化模块28-29
  • 3.4 中文自动问答系统模块29-30
  • 3.5 本章小结30-31
  • 第四章 基于Scrapy的数据爬虫设计实现31-41
  • 4.1 分析网易考拉网站31-32
  • 4.2 利用正则表达式提取数据32-34
  • 4.3 爬取模块的设计实现34-40
  • 4.3.1 创建项目及文件解释35-36
  • 4.3.2 实现Item容器36-37
  • 4.3.3 定义数据输出37
  • 4.3.4 设置代理与防止死循环37-38
  • 4.3.5 处理编码格式38
  • 4.3.6 编写Spider模块38-40
  • 4.4 本章小结40-41
  • 第五章 基于D3的考拉商品可视化设计实现41-48
  • 5.1 可视化设计41-44
  • 5.1.1 “开关”设计41-42
  • 5.1.2 重绘函数设计42-44
  • 5.2 考拉商品可视化实现44-47
  • 5.3 本章小结47-48
  • 第六章 简易自动问答系统的设计实现48-61
  • 6.1 KOALAASK工具的功能设计实现48-55
  • 6.1.1 KOALAASK工具的动态模型48-49
  • 6.1.2 KOALAASK分词与词性标注49-51
  • 6.1.3 KOALAASK关键词提取51-52
  • 6.1.4 KOALAASK相似度的计算52-55
  • 6.2 KOALAASK工具的测试55-60
  • 6.2.1 功能性实验55-58
  • 6.2.2 实验结果的分析58-60
  • 6.3 本章小结60-61
  • 第七章 总结和展望61-63
  • 7.1 本文工作的总结61-62
  • 7.2 进一步的研究工作62-63
  • 参考文献63-68
  • 附录68-70
  • 在校期间参加的科研项目和发表的论文70-71
  • 致谢71

【相似文献】

中国期刊全文数据库 前10条

1 苏芳仲;林世平;;基于事例推理的中文自动问答系统研究[J];福建电脑;2006年06期

2 刘里;曾庆田;;自动问答系统研究综述[J];山东科技大学学报(自然科学版);2007年04期

3 孔令玉;;国外跨语言自动问答系统研究综述[J];现代情报;2008年10期

4 王婧;;基于自动问答技术的智能文本机器人[J];科技创业家;2013年08期

5 卢炳卫;;关于自动问答技术的研究[J];农业图书情报学刊;2006年01期

6 夏凌;魏祖雪;;自动问答系统及其评测(英文)[J];西华大学学报(自然科学版);2007年02期

7 黄建岗;张爱华;;教务门户网自动问答系统的设计与实现[J];电脑知识与技术;2009年36期

8 骆正华,樊孝忠,夏天;基于结构化问句实例的自动问答系统[J];微电子学与计算机;2005年07期

9 李照亮;张琳;;基于招生领域自动问答系统的问题理解的研究[J];电脑知识与技术;2009年10期

10 王正华;韩永国;;自动问答系统设计与实现[J];软件导刊;2014年09期

中国重要会议论文全文数据库 前3条

1 高俊杰;李茹;李双红;;基于领域本体的自动问答系统关键技术研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

2 张耀允;王晓龙;王轩;徐睿峰;侯永帅;范士喜;;面向开放的限定领域的交互式问答语料分析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

3 刘国刚;;人工智能客户服务体系的研究与实现[A];2008年中国通信学会无线及移动通信委员会学术年会论文集[C];2008年

中国博士学位论文全文数据库 前2条

1 于士涛;基于问答网络论坛知识体系的自动问答系统研究[D];南开大学;2009年

2 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年

中国硕士学位论文全文数据库 前10条

1 吴安峻;面向自动问答的短问题分类研究[D];西南交通大学;2015年

2 王正华;自动问答系统的研究与实现[D];西南科技大学;2015年

3 王一凡;基于语义网的旅游业自动问答系统的研究[D];浙江大学;2016年

4 舒德华;基于Scrapy爬取电商平台数据及自动问答系统的构建[D];华中师范大学;2016年

5 王振佶;面向销售服务的自动问答系统的设计与实现[D];电子科技大学;2011年

6 曹志娟;自动问答系统中的问题理解与信息检索研究[D];重庆大学;2005年

7 周永梅;基于本体的自动问答系统[D];江苏科技大学;2011年

8 冯嘉祺;自动问答系统语音接口的设计与实现[D];华中科技大学;2007年

9 李俊;限定领域自动问答技术研究[D];北方工业大学;2010年

10 蒋志鹏;黑龙江移动客户服务自动问答系统的设计与实现[D];哈尔滨工业大学;2010年



本文编号:837654

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/837654.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户22f6f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com