基于主题网络爬虫的汽车行业多元信息web系统设计与实现
本文关键词:基于主题网络爬虫的汽车行业多元信息web系统设计与实现,由笔耕文化传播整理发布。
【摘要】:伴随着汽车行业的高速发展,行业竞争愈发激烈,本土汽车企业兼并加剧、国外大型跨国企业纷纷入驻、原材料价格不断上涨、消费者的需求不断变化、整车行业整体利润下滑,迫使着汽车企业需要更加全面的了解与市场相关的信息:汽车行业动态、行业政策法规动态、零部件价格等信息。这些信息大量存在于互联网中,然而传统、主流地信息获取工具:通用搜索引擎目前在面向专业人士在专业领域上检索相关信息时,存在着返回信息不精准、不全、更新不及时等问题;同时,主流汽车行业相关网站又以汽车产品消费者提为主要服务对象。汽车企业用户想通过互联网获取相关行业信息,并不是特别方便。针对通用搜索引擎存在的缺陷,主题网络爬虫技术应运而生,主题爬虫技术能自动的从互联网上采集与主题相关的网页,回避无关网页。因此,建立一个基于主题网络爬虫的汽车行业多元信息web系统解决汽车企业用户获取需求信息的不便,达到了解市场行情的目的,进而帮助汽车企业制定市场战略,提高企业市场竞争力是有必要的。本文的目标是建立一个汽车企业用户的汽车行业多元信息web系统,为企业用户提供汽车行业新闻资讯、行业政策法规、汽车零部件价格等信息,研究的主要内容如下:首先,在汽车行业竞争日益激烈和通用搜索引擎采集信息存在的不足的背景下,引出通过主题网络爬虫技术采集汽车行业相关信息的话题。在此基础之上讨论了汽车行业资讯、汽车产业政策法规、汽车零部件价格信息三者的现实需求。其次,在需求分析的基础上结合主题网络爬虫技术设计了系统总体解决方案。再次,对于主题网络爬虫,研究了其架构和工作原理,在架构的研究基础上,对各个模块的实现技术展开深入研究,包括在对网页的解析,对网页正文的分词技术的研究;对当前主流的主题基准模型展开研究,结合本文实际需求,选定向量空间模型为本文的主题基准模型;对当前主流关键字赋权的计算法TF和TF-IDF展开研究;对主题网络爬虫当前主流的搜索策略展开研究,在此基础上设计了本文基于网页文本和链接结构的综合搜索策略。最后,在对前文所有研究的基础上,开发实现了基于主题网络爬虫的汽车行业多元信息web系统。
【关键词】:主题网络爬虫 向量空间模型 搜索策略 汽车行业信息
【学位授予单位】:西南交通大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092;TP391.1
【目录】:
- 摘要6-7
- Abstract7-11
- 第1章 绪论11-16
- 1.1 课题背景及研究意义11-12
- 1.2 国内外研究现状12-13
- 1.2.1 互联网主流汽车站点现状研究12
- 1.2.2 主题网络爬虫研究现状12-13
- 1.3 研究内容及组织结构13-15
- 1.3.1 论文主要研究内容13-14
- 1.3.2 论文组织结构14-15
- 1.4 小结15-16
- 第2章 汽车产业链协同服务平台用户对行业信息的需求分析16-22
- 2.1 汽车产业链协同平台用户对信息种类的需求分析16-18
- 2.1.1 汽车行业政策法规类信息需求分析16-17
- 2.1.2 汽车行业新闻类信息需求分析17-18
- 2.1.3 汽车零部件价格类数据需求分析18
- 2.2 平台中小型汽车企业获取互联网行业信息存在的问题18-19
- 2.3 系统功能需求分析19-21
- 2.4 小结21-22
- 第3章 基于主题网络爬虫的汽车行业多元信息Web系统总体设计22-31
- 3.1 汽车行业多元信息web系统设计目标22
- 3.2 汽车行业多元信息web系统总体架构22-23
- 3.3 汽车行业多元信息web系统总体功能设计23-26
- 3.3.1 用户功能模块设计24-25
- 3.3.2 管理员功能模块设计25-26
- 3.4 数据库设计方案26-29
- 3.4.1 E-R图设计26-27
- 3.4.2 主要数据表格的设计27-29
- 3.5 主题网络爬虫设计方案29-30
- 3.6 小结30-31
- 第4章 基于主题爬虫的汽车行业多元信息Web系统的关键技术的研究31-48
- 4.1 主题网络爬虫工作原理31-34
- 4.2 主题网络爬虫结构34-35
- 4.3 网页解析35-37
- 4.3.1 HTMLParser解析器35-36
- 4.3.2 解析标签确立36-37
- 4.4 特征词提取37-38
- 4.5 主题基准模型38-42
- 4.5.1 主流主题基准模型38-39
- 4.5.2 本文主题基准模型方案39-40
- 4.5.3 本文主题词库的建立40-41
- 4.5.4 主题特征赋值41-42
- 4.6 搜索策略42-47
- 4.6.1 主流搜索策略的研究42-45
- 4.6.2 本文搜索策略方案45-47
- 4.7 小结47-48
- 第5章 基于主题网络爬虫的汽车行业多元信息web系统的实现48-62
- 5.1 系统开发环境48
- 5.2 系统功能实现48-61
- 5.2.1 种子站点初始化48-50
- 5.2.2 网页下载模块的实现50-51
- 5.2.3 网页信息抽取模块的实现51-52
- 5.2.4 主题相关性判别模块的实现52-53
- 5.2.5 链接控制块的实现53-57
- 5.2.6 用户界面的实现57-58
- 5.2.7 留言评论功能的实现58
- 5.2.8 信息查询功能的实现58-59
- 5.2.9 系统管理功能的实现59-61
- 5.3 小结61-62
- 总结与展望62-64
- 论文总结工作62
- 后续工作展望62-64
- 致谢64-65
- 参考文献65-68
【参考文献】
中国期刊全文数据库 前10条
1 史宝明;贺元香;吴崇正;;主题搜索引擎中爬虫搜索策略的研究[J];计算机工程与应用;2014年02期
2 谢治军;杨武;李稚楹;宋静静;;基于HMM的主题爬虫研究[J];重庆工商大学学报(自然科学版);2012年02期
3 蒋琴琴;宫哲;辛阳;;基于HTML Parser的BBS信息抽取系统的设计与实现[J];自动化技术与应用;2012年01期
4 宋海洋;刘晓然;钱海俊;;一种新的主题网络爬虫爬行策略[J];计算机应用与软件;2011年11期
5 叶育鑫;欧阳丹彤;;基于语义的主题爬行策略[J];软件学报;2011年09期
6 于莉;;经典信息检索模型的分类比较[J];软件;2011年03期
7 陈永彬;张琢;张添;;一种基于蚁群算法的主题爬虫搜索策略[J];微型机与应用;2011年01期
8 罗林波;陈绮;吴清秀;;基于Shark-Search和Hits算法的主题爬虫研究[J];计算机技术与发展;2010年11期
9 周康渠;张根保;肖燕;张晓丽;;汽车零部件成本系数及目标参考成本计算系统研究[J];中国制造业信息化;2008年09期
10 李勇;韩亮;;主题搜索引擎中网络爬虫的搜索策略研究[J];计算机工程与科学;2008年03期
中国博士学位论文全文数据库 前1条
1 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
中国硕士学位论文全文数据库 前8条
1 王良伟;面向垂直搜索引擎的主题爬虫方法研究[D];重庆大学;2013年
2 彭正非;面向汽车行业的主题爬虫研究与实现[D];华中科技大学;2011年
3 方加沛;垂直搜索引擎主要技术研究[D];暨南大学;2010年
4 吕赛辉;主题爬虫关键技术研究及应用[D];浙江工业大学;2009年
5 陈明华;语音合成系统中自动分词技术的研究[D];哈尔滨理工大学;2009年
6 罗卫华;南方汽车自主品牌汽车营销渠道模式研究[D];重庆大学;2008年
7 耿宏静;汽车零部件采购物流战略分析[D];天津科技大学;2008年
8 王晓伟;垂直搜索引擎若干关键技术的研究[D];浙江大学;2007年
本文关键词:基于主题网络爬虫的汽车行业多元信息web系统设计与实现,,由笔耕文化传播整理发布。
本文编号:399303
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/399303.html