当前位置:主页 > 经济论文 > 银行论文 >

垂直搜索引擎在企业征信中的应用研究

发布时间:2020-06-26 20:16
【摘要】:目前因企业信用信息不对称而引发的失信行为时有发生,企业交易风险日益严重。而现有的企业征信系统提供的企业征信数据维度较少,主要集中在企业的基本信息和信贷信息,无法准确、全面的反映企业的信用情况。因此,市场迫切需要一个企业征信信息共享平台。论文以企业征信垂直搜索引擎为研究内容,首先给出了企业征信垂直搜索引擎整体架构;利用网络爬虫技术采集互联网上企业征信数据,并对数据进行预处理;将知识图谱技术引入企业征信行业,建立了企业征信关联图谱;结合Lucene技术建立了全文检索模型;最后开发设计了企业征信搜索引擎原型系统。主要研究内容包括:(1)企业征信垂直搜索引擎架构:根据垂直搜索引擎架构,结合企业征信数据准确度要求高、存在关联关系的特点,提出企业征信垂直搜索引擎架构。(2)企业征信数据获取与预处理:首先对企业征信数据进行了深入研究,采用网络爬虫的方法采集数据,设计了数据采集方案和流程;然后利用Scrapy框架从全国12315互联网平台、国家企业信用信息公示系统等多个权威机构公开信息网站上抓取企业征信相关信息;然后对抓取的数据进行了数据清洗、数据聚合等预处理工作。(3)企业征信关联图谱建模:深入研究了知识图谱技术,分析了企业征信的数据维度、搜索需求和数据关联关系;将知识图谱技术引入企业征信领域,提出构建企业征信关联图谱的设计思路;抽取了企业征信实体、实体属性以及实体关联关系,并采用OWL进行建模,给出了企业征信关联图谱的形式化描述。(4)企业征信搜索引擎原型系统设计:利用PyCharm、Neo4j等工具设计并实现了企业征信垂直搜索引擎原型系统。实现了企业征信数据获取与预处理、采用图数据库Neo4j构建了企业征信关联图谱、结合Lucene技术实现了企业征信信息全文索引与检索,实现了企业征信信息显示以及企业征信关联图谱的可视化等功能。
【学位授予单位】:石家庄铁道大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:F832.4;TP391.3
【图文】:

架构图,企业征信,架构


关系、分支关系等,关系信息是影响企业信用的一大因素,企业的信用情况通过关系信息间接反映出来。2.3.2 企业征信垂直搜索引擎架构论文利用网络爬虫技术从预先定义好的几个权威机构公开信息网站中抓企业征信数据,保证抓取的数据是与企业征信主题相关且真实准确的。企业征信垂直搜索引擎包括网络数据获取、数据预处理、数据分析、关图谱以及全文索引与检索五部分。企业征信垂直搜索引擎架构如图 2-2 所示。

工作流程图,网络爬虫,工作流程图,队列


网络爬虫的原理是从初始种子开始,将初始种子全部放到待抓取队列虫按顺序从待抓取队列中取出 URL,经过域名解析后,开始抓取并存的网页,然后通过网页搜索策略提取出新的 URL,并把新的 URL 继续抓取集中,之后再将上述过程进行循环,直到待爬取队列为空或达到条件时停止抓取。网络爬虫工作流程如图 3-1 所示。

【参考文献】

相关期刊论文 前10条

1 吴晶妹;;从信用的内涵与构成看大数据征信[J];首都师范大学学报(社会科学版);2015年06期

2 刘军;;中国式征信触角如何延伸?[J];首席财务官;2015年20期

3 张晓丹;李静;张秋霞;尚子华;;语义Web本体语言OWL2研究[J];电子设计工程;2015年16期

4 刘新海;丁伟;;美国ZestFinance公司大数据征信实践[J];征信;2015年08期

5 廖理;;基于Neo4j图数据库的时空数据存储[J];信息安全与技术;2015年08期

6 房亚东;杜来红;;基于OWL的企业资源知识表示研究[J];情报科学;2015年06期

7 徐婕;;垂直搜索引擎系统研究与实现[J];软件导刊;2015年05期

8 张雅婷;;我国企业和个人征信系统发展探析[J];征信;2015年03期

9 靳永超;吴怀谷;;基于Neo4j处理大数据中元数据溯源的研究[J];现代计算机(专业版);2015年08期

10 周敬才;胡华平;岳虹;;基于Lucene全文检索系统的设计与实现[J];计算机工程与科学;2015年02期

相关硕士学位论文 前10条

1 郝伟学;中医健康知识图谱的构建研究[D];北京交通大学;2017年

2 张巍;资本市场企业信息系统人物和企业关系图谱的设计与实现[D];哈尔滨工业大学;2017年

3 王松;垂直搜索引擎中智能爬虫系统的研究与实现[D];北京邮电大学;2017年

4 王雪;基于企业画像的公示数据查询系统设计与实现[D];大连海事大学;2017年

5 舒德华;基于Scrapy爬取电商平台数据及自动问答系统的构建[D];华中师范大学;2016年

6 程文亮;中文企业知识图谱构建与分析[D];华东师范大学;2016年

7 任书琴;健康领域的垂直搜索引擎的研究与实现[D];电子科技大学;2016年

8 陆鹏;基于Neo4j的大数据组织检索研究与应用[D];东南大学;2015年

9 刘东华;基于图数据库的电影推荐系统的设计与实现[D];云南大学;2015年

10 袁旭萍;基于深度学习的商业领域知识图谱构建[D];华东师范大学;2015年



本文编号:2730838

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/huobiyinxinglunwen/2730838.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b6368***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com