分布式信息抽取系统在物流领域中的应用
发布时间:2020-08-04 05:29
【摘要】:随着国内物流行业的蓬勃发展,在线物流平台的营运方式成为主流,每天都会有海量的货运信息和承运信息发布到各个承运平台上,而对互联网上的数据进行抓取和分析,也成为比较常见的商业行为。在实习企业惠龙易通的集配平台内,利用人工构建包装器的方式对物流站点进行数据抓取,但由于手工构建包装器繁琐且难以维护,因此,在现有系统的基础上,降低人工投入、提高包装器构建的自动化程度是课题研究的主要问题。论文针对企业现有系统的缺点和问题,通过对爬虫技术、WEB信息抽取技术以及分布式技术的研究,结合物流承运平台页面结构复杂、重复的特点,设计并实现了一个包装器规则自动化构建、根据规则自动采集数据,对采集的数据去重、存储的分布式信息抽取系统,并在采集的数据的基础上搭建了一个基于近义词语义转换的检索服务。论文的主要工作如下:(1)物流信息抽取规则的自动化构建:针对物流平台页面列表多且结构复杂的特点,对“标签路径”算法进行了改进,通过优化“标签路径比”的计算方式,提高正文节点和噪音节点的区分度,从而提高了标签提取的准确度;针对物流术语表达不规范的问题,将TD-IDF算法提取的特征值转化为国家颁布的物流标准术语,减少特征值歧义,从而提高VSM算法对页面主题相似度计算的准确度;针对标签路径无法直接提取页面数据的问题,将CSS选择器和正文列表的标签路径进行结合,设计并使用“标签路径类选择器”的方式生成了抽取规则,使标签路径可以准确地表示每一个元素。(2)分布式物流信息抽取系统设计:搭建了基于Scrapy-redis的分布式爬虫系统。应用抽取规则对某一个站点进行抓取时,为了使爬虫停留在当前站点内进行爬行,对框架内“爬行策略”组件进行了重写,设计“异源过滤”的策略过滤异源URL地址;为了减少“待爬取队列”管理对内存的开销,利用“布隆过滤器”对待爬URL队列进行过滤;为了降低细微表述差异对去重的影响,使用局部敏感哈希算法“SimHash”对物流信息进行去重,并将该算法的特征值提取过程和TD-IDF算法进行合并,并增加语义特征。通过对相关模块的重构,提高了原爬虫框架的工作效率。(3)分布式抽取系统的实现及性能测试:使用Python对包装器生成和爬虫系统进行开发,使用Node.js开发可视化网站界面。对中国物通网进行实际爬取分析,并对抓取过程在分布式环境及单机环境中进行测试比较。测试结果表明,优化后分布式系统整体运行效率比之前提高了11%;修改后的待爬队列去重误判率仅有0.047%。整个系统的运行效率可以达到预期目标和效果。最后根据测试结果,对系统中存在的不足提出了下一步的优化方向。
【学位授予单位】:江苏大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.1
【图文】:
图 2.1 SimHash 原理图算法大致流程如图 2.1 所示,图中的 feature 指的是 Doc 中的分词结果分词特征值看做一个 feature,weight 代表相应特征值的权重;hash 是指,用来计算 feature 的哈希值,add 是指合并所有特征值的加权特征值;维计算得到各文档二进制的海明距离。具体来说,SimHash 算法分成五个步骤,分别是分词、哈希计算、加权降维,算法过程大致如下:(1)将 Doc 进行分词,取出其中 n 个特征值并计算其权重,形成(特权重 W)对;(2)计算特征值的 hash 值形成(哈希值 H,权重 W)对,如图 2.1 所的是 6 位哈希值;(3)将(哈希值 H,权重 W)对进行纵向累加合并,哈希值中 1 位计计-W,如关键词 A:(100110,5)=> A’(5,-5,-5,5,5,-5);关键词
减少人工构建抽取规则的成本。本章实现的自动化信息抽取规则的主要工作流程如图3.1 所示。图 3.1 自动化生成抽取模块工作流程首先手工录入需要提取的网站网址,爬虫模块会将页面内容下载下来,将页面信息预处理并解析出 DOM 树,利用标签路径算法提取出页面正文部分,再通过 VSM 算法对页面主题相似度进行计算,最后将页面正文部分标签路径进行清洗获得“标签路径类选择器”集合,生成抽取规则。应用生成的抽取规则进行信息抽取,最后将数据转化成结构化的数据并持久化。在整个系统中,物流信息抽取模型的整体结构图如图 3.2 所示。图 3.2 信息抽取模型整体结构图14
图 3.1 自动化生成抽取模块工作流程首先手工录入需要提取的网站网址,爬虫模块会将页面内容下载下来,将页信息预处理并解析出 DOM 树,利用标签路径算法提取出页面正文部分,再通 VSM 算法对页面主题相似度进行计算,最后将页面正文部分标签路径进行清获得“标签路径类选择器”集合,生成抽取规则。应用生成的抽取规则进行信抽取,最后将数据转化成结构化的数据并持久化。在整个系统中,物流信息抽取模型的整体结构图如图 3.2 所示。
【学位授予单位】:江苏大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.1
【图文】:
图 2.1 SimHash 原理图算法大致流程如图 2.1 所示,图中的 feature 指的是 Doc 中的分词结果分词特征值看做一个 feature,weight 代表相应特征值的权重;hash 是指,用来计算 feature 的哈希值,add 是指合并所有特征值的加权特征值;维计算得到各文档二进制的海明距离。具体来说,SimHash 算法分成五个步骤,分别是分词、哈希计算、加权降维,算法过程大致如下:(1)将 Doc 进行分词,取出其中 n 个特征值并计算其权重,形成(特权重 W)对;(2)计算特征值的 hash 值形成(哈希值 H,权重 W)对,如图 2.1 所的是 6 位哈希值;(3)将(哈希值 H,权重 W)对进行纵向累加合并,哈希值中 1 位计计-W,如关键词 A:(100110,5)=> A’(5,-5,-5,5,5,-5);关键词
减少人工构建抽取规则的成本。本章实现的自动化信息抽取规则的主要工作流程如图3.1 所示。图 3.1 自动化生成抽取模块工作流程首先手工录入需要提取的网站网址,爬虫模块会将页面内容下载下来,将页面信息预处理并解析出 DOM 树,利用标签路径算法提取出页面正文部分,再通过 VSM 算法对页面主题相似度进行计算,最后将页面正文部分标签路径进行清洗获得“标签路径类选择器”集合,生成抽取规则。应用生成的抽取规则进行信息抽取,最后将数据转化成结构化的数据并持久化。在整个系统中,物流信息抽取模型的整体结构图如图 3.2 所示。图 3.2 信息抽取模型整体结构图14
图 3.1 自动化生成抽取模块工作流程首先手工录入需要提取的网站网址,爬虫模块会将页面内容下载下来,将页信息预处理并解析出 DOM 树,利用标签路径算法提取出页面正文部分,再通 VSM 算法对页面主题相似度进行计算,最后将页面正文部分标签路径进行清获得“标签路径类选择器”集合,生成抽取规则。应用生成的抽取规则进行信抽取,最后将数据转化成结构化的数据并持久化。在整个系统中,物流信息抽取模型的整体结构图如图 3.2 所示。
【参考文献】
相关期刊论文 前6条
1 郭喜跃;何婷婷;;信息抽取研究综述[J];计算机科学;2015年02期
2 李贵;陈成;李征宇;韩子扬;孙平;孙焕良;;基于标签路径的Web结构化数据自动抽取[J];计算机科学;2013年S1期
3 黄承慧;印鉴;侯f ;;一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J];计算机学报;2011年05期
4 祝伟华;卢熠;刘斌斌;;基于HMM的Web信息抽取算法的研究与应用[J];计算机科学;2010年02期
5 赵欣欣;索红光;刘玉树;;基于标记窗的网页正文信息提取方法[J];计算机应用研究;2007年03期
6 周顺先;林亚平;王雷;;Web信息抽取中基于页面特性的包装器平衡算法[J];计算机工程与应用;2006年36期
相关博士学位论文 前1条
1 施生生;精确Web信息抽取关键技术与系统研究[D];南京大学;2017年
相关硕士学位论文 前10条
1 方超;基于物流数据的个性化推荐系统的研究与实现[D];南京邮电大学;2017年
2 安子建;基于Scrapy框架的网络爬虫实现与数据抓取分析[D];吉林大学;2017年
3 李超;基于深度学习的短文本分类及信息抽取研究[D];郑州大学;2017年
4 李q
本文编号:2780113
本文链接:https://www.wllwen.com/guanlilunwen/wuliuguanlilunwen/2780113.html