汽车产品缺陷信息采集与检索系统
发布时间:2020-11-01 11:12
随着我们国家国民经济一直快速的向前进步,老百姓对于汽车产品的需求量也大大增加起来,购车群体的数量每年都在持续不断的增多。在各个汽车交易网站中,每款车型下面都有大量的车友对于该款车型的使用评价,这些评价信息包含了该款车型各方面使用体验,比如外观、加速、噪音和油耗等。这些有关车辆的评价信息对购车人群做出购车决策有极大的帮助。但是,目前人们获取车辆评价信息的方式仍然是逐个浏览汽车交易网站,缺乏有效的方案来提取、整合某一款车型在所有汽车交易网站的车友评价信息。例如奥迪Q7汽车,在汽车之家、毛豆新车、人人车等汽车交易网站均有车友对该车的使用评价。不过这些车辆的车友评价信息并不集中存储。针对这一现状,我们设计并实现了面向汽车产品缺陷信息的的数据采集与检索系统,采用传统技术的基础上,进行采集技术和搜索引擎技术的创新,完成高质量的汽车产品缺陷信息采集和检索任务,提取有效的车辆评价信息,帮助购车人群进行购车决策。在研究和开发系统的过程中我们看到,爬虫作为数据采集领域的传统技术,在数据存储、数据挖掘、数据分析等多个领域都取得了非常好的效果,在软件系统开发中受到广泛应用。因此,我们选择利用传统的网络爬虫技术来完成车辆评价信息采集任务,并且利用主机连接VPN代理服务器来隐藏本地IP地址,克服本地IP地址被封的难题。而且,考虑到Lucene在全文检索处理中的强大功能,在信息检索环节采用Java语言编程,开发基于Lucene工具库的信息检索模块,进一步加快车辆评论信息的检索速度。基于爬虫和Lucene的汽车产品缺陷信息采集与检索系统,采用软件系统开发中常用的模块化设计手段。采用网络爬虫作为车辆评价信息采集技术,并利用VPN隐藏本地主机IP地址的能力进一步加快爬虫程序访问汽车网页过程,主要采用C/C++进行程序开发,在该模块会引入RAS函数库保证VPN连接的稳定,解决主机IP地址被封的问题。信息检索采用开源的Lucene技术,采用倒排索引方式进行汽车缺陷信息的索引建立,进一步加快检索速度。和其他系统进行数据传输使用了网络通信的手段,能够作为后台系统支持前台查询界面系统的信息查询工作。本论文面向汽车缺陷信息检索的使用目的,利用VPN、爬虫和Lucene设计了相关的采集与检索功能,解决了汽车交易市场上在汽车缺陷信息获取方面的难题,让购车人群可以更加有效的利用网络上汽车产品评价信息,提升了购车人群对汽车优劣的判断能力,对于维护购车人群的利益具有实用价值。
【学位单位】:山东大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:U472;TP391.3
【部分图文】:
声明一个IndexWriter的对象,这个类能够实现创建索引和添加索引。??最后,把文档里我们选定的关键字拿出来,都保存到索引目录里。??系统整体架构图如图2-1所示。如图,系统实现了多线程爬虫程序,可以??同时采集多个汽车交易网站的车友评论信息,比如购车网、优信二手车、汽车??之家等;采集的信息包括车辆型号关键字,油耗、外观等车辆重要性能指标;??将采集到的各个网站的车友评论数据先存储到文本文档中(.txt格式),这些??文档位于本地同一个文件夹下,然后经过数据整合再存储进MySql数据库中;??最后,采用PHP语言创建前台查询界面,可根据具体的车辆型号查询某一款车??在油耗、外观等方面的车友评论,帮助购车人群加强对目标车型性能的了解。??购车网?优信?汽车之家??■??????;?j?j?j????????爬虫?VPN?呢虫?VPN?爬虫?VPN??!?1?1?;I?L—??^?I??1???5;???数据存储??车辆型号、油??耗、外观等评论??信息???^?r???数据库??各大汽车交易网??丨站车辆评论信息????__?、二??—??前台查询(搜索??引擎基于Lucene
述三个参数就能确定一个通信连接,再给这个连接分配一个Socket接口,应用??层和传输层根据这个,分别不同的进程或者不同的网络连接之间的数据传输,??同时进行多个通信。图2-2是Socket在应用层、运输层、网络层、链路层和多??个进程之间怎么进行通信。??丨用户进i丨用户进丨?用户进?I用户进?心田尸??I程1?程2?程3?!程4?应用层??I?1?J?I?I??:?4??A?11???? ̄K?一?4?.?|??/?/??!?r?▼??I??Socket抽象层??二?:::■■:,.=___??\?;?|??Jii??\?|?T??;?f?1?=?!??\?I??TCP?UDP?丨运输层??\?I?1?!?!???\■■.二噘」????二?1??\?j?■??ICMP?—??IP?IGMP?网络层????I??????4?m:?:??.........?;:=:izzz=r-.......?:===—…:二???硬件栳??ARP?g?RARP?链路层??媒体??图2-2?Socket数据流向模型??3.正则表达式。??我们获取到汽车评论信息页面全部内容后,要把车辆评论信息提取出来,??9??
-}4PN工作原理图
【参考文献】
本文编号:2865454
【学位单位】:山东大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:U472;TP391.3
【部分图文】:
声明一个IndexWriter的对象,这个类能够实现创建索引和添加索引。??最后,把文档里我们选定的关键字拿出来,都保存到索引目录里。??系统整体架构图如图2-1所示。如图,系统实现了多线程爬虫程序,可以??同时采集多个汽车交易网站的车友评论信息,比如购车网、优信二手车、汽车??之家等;采集的信息包括车辆型号关键字,油耗、外观等车辆重要性能指标;??将采集到的各个网站的车友评论数据先存储到文本文档中(.txt格式),这些??文档位于本地同一个文件夹下,然后经过数据整合再存储进MySql数据库中;??最后,采用PHP语言创建前台查询界面,可根据具体的车辆型号查询某一款车??在油耗、外观等方面的车友评论,帮助购车人群加强对目标车型性能的了解。??购车网?优信?汽车之家??■??????;?j?j?j????????爬虫?VPN?呢虫?VPN?爬虫?VPN??!?1?1?;I?L—??^?I??1???5;???数据存储??车辆型号、油??耗、外观等评论??信息???^?r???数据库??各大汽车交易网??丨站车辆评论信息????__?、二??—??前台查询(搜索??引擎基于Lucene
述三个参数就能确定一个通信连接,再给这个连接分配一个Socket接口,应用??层和传输层根据这个,分别不同的进程或者不同的网络连接之间的数据传输,??同时进行多个通信。图2-2是Socket在应用层、运输层、网络层、链路层和多??个进程之间怎么进行通信。??丨用户进i丨用户进丨?用户进?I用户进?心田尸??I程1?程2?程3?!程4?应用层??I?1?J?I?I??:?4??A?11???? ̄K?一?4?.?|??/?/??!?r?▼??I??Socket抽象层??二?:::■■:,.=___??\?;?|??Jii??\?|?T??;?f?1?=?!??\?I??TCP?UDP?丨运输层??\?I?1?!?!???\■■.二噘」????二?1??\?j?■??ICMP?—??IP?IGMP?网络层????I??????4?m:?:??.........?;:=:izzz=r-.......?:===—…:二???硬件栳??ARP?g?RARP?链路层??媒体??图2-2?Socket数据流向模型??3.正则表达式。??我们获取到汽车评论信息页面全部内容后,要把车辆评论信息提取出来,??9??
-}4PN工作原理图
【参考文献】
相关期刊论文 前10条
1 李会通;;全文检索技术在缺陷汽车召回管理中的应用[J];信息系统工程;2015年11期
2 林雷;;汽车营销新模式——网购[J];市场研究;2014年04期
3 吴昊;;基于Lucene技术的邮件取证技术研究[J];信息网络安全;2013年10期
4 园园;;消费者网购汽车配件类型日趋丰富[J];汽车与配件;2013年37期
5 夏明忠;夏以轩;李兵元;;软件模块化设计和模块化管理[J];中国信息界;2012年11期
6 向北;;汽车网购:看上去很美[J];市场观察;2010年12期
7 胡华碧;;IP安全分析及基于IPSec VPN的解决方案[J];数理医药学杂志;2010年04期
8 李娟;张钦;;基于动态链接库的Visual C++混合编程[J];计算机工程与设计;2010年09期
9 刘祥;常海遥;;我国缺陷汽车产品召回管理制度有效性浅析[J];世界标准信息;2008年02期
10 周平;;Lucene全文检索引擎技术及应用[J];重庆工学院学报(自然科学版);2007年04期
相关硕士学位论文 前1条
1 王桦;基于广度优先的主题爬虫的设计与实现[D];复旦大学;2011年
本文编号:2865454
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2865454.html