企业互联网负面信息抓取研究
发布时间:2020-10-30 23:33
随着信息时代的网络全球化落幕,大数据人工智能的时代到来,人们普遍对大数据理解已经从“数据拥有”到“数据创造价值”的概念发生转变,并对已有数据中如何创造价值寻求出路。在各行业中,金融行业从业者们急迫地希望能从数据中促进经济发展和获取价值回报。及时准确的互联网数据对于银行风险控制具有战略性的意义,身处互联网飞速发展的时代,如何根据自身需求对贷款方错综复杂信息数据进行精确采集与分析是一个亟待解决的问题。外部数据源的方式作为补充帮助银行第一时间掌握贷款方的相关信息,对潜在的风险做及时甄别与预警而且对提高风险管理水平具有重大意义。但是,传统信息采集方法是“来者不拒”的方法对信息不加甄别获取后在进行其中提炼信息,这种模式不仅使信息提取工作繁重而且网络爬取数据效率也很低,后期数据处理耗费成本也是相当巨大。针对上述问题,本文先后从数据源获取、采集数据效率和数据预处理以及数据入库存储等方面着手解决精确采集问题,全文工作可分为以下三部分:1)中文公司简称生成与检测。提出了一种基于双层条件随机场结合规则推导以及网络爬虫检验中文公司名简称生成的机器学习新方法。通过构建双层条件随机场模型,对公司名内部各个词的分类识别,构建特征集并输入CRFs模型,输出得到简称集通过网络爬虫进行统计评估校验。对于精确地生成描述相关公司简称具有一定的实际应用价值。2)企业负面信息采集解决方法。通过采用“先扩后积”模式对目标公司进行信息采集,首先采用全网主题采集式爬虫,基于公司名相关主题有选择性爬取预先定义符合主题的网页信息,然后采用增量采集爬虫根据不同公司负面信息的主题形成定向爬虫策略。采用大量机器学习算法对采集数据进行去重、去噪、甄别等预处理工作。3)设计并实现了企业负面信息采集系统。该系统是面向银行风投业务人员做风险预警监控平台的子项目服务。用户通过与风险预警平台的交互将信息获取需求发送采集系统,再由调度中心对任务进行解析以及下发采集任务,最后收集采集数据进行预处理分析以及提供风险分析系统数据支撑。
【学位单位】:湘潭大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP391.1;TP181
【部分图文】:
首字作为保留部分;orgType类型全部省略。最终得到的简称“中石化”。??3.?3.?4简称生成框架??本文提出的公司名简称生成算法的整体框架如图3-1所示:??!?L?刑台?J?L?,???J?;??i?1?4??I?(^S(i?1??t?.?? ̄ ̄^ ̄ ̄?|?合并.利??————?I索倍息打分重排序??,?,?■?i?.???;;?H?crf雩呈绳輅i ̄ ̄?1?wmm?"It??pj?分W?1?I??:??—??————CRF賴分类???1??l??I?I?*??r??????????I?.麵施略?^结待?!??|?CRF特征織?I?块?I?I?,??j?“?A?|?基于hadoop?|i??,_?的网络爬虫系??|??????,???H?—二?1?丨统?l|??高层分类持征?p分词词典j-?分类词库底层h类巧征:??通过对中文机构名?????卜.究制定特定,1丨…??f互联网词f? ̄"T?JL??:??V?典库?I?!????训练语抖|??i?iji;as????一…?????????_」??图3-丨DCRF-Rule-Web简称生成框架??图3-1可知
图5-3企业负面信息采集系统整体模块图??本系统采用B/S模式,企业负面信息采集、分析和展示工作独立区分开来
???J??图5-3企业负面信息采集系统整体模块图??本系统采用B/S模式,企业负面信息采集、分析和展示工作独立区分开来。当采集??系统将数据采集入库后将通知企业负面信息分析系统进行分析,最后由企业负面信息前??端负面向客户端推送采集报告信息。??,?綱S?:?HTTP臓?C225-??J*;?<?层.网络层?TCP/iP??互目夭巧?'、?闽8脃务雅??|?織鄉数蓮??1?&?■■-3??I?^??APP??-ir?a?W?H?-rj:-??用户??图5-4企业负面信息采集系统物理拓扑图??48??
【参考文献】
本文编号:2863151
【学位单位】:湘潭大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP391.1;TP181
【部分图文】:
首字作为保留部分;orgType类型全部省略。最终得到的简称“中石化”。??3.?3.?4简称生成框架??本文提出的公司名简称生成算法的整体框架如图3-1所示:??!?L?刑台?J?L?,???J?;??i?1?4??I?(^S(i?1??t?.?? ̄ ̄^ ̄ ̄?|?合并.利??————?I索倍息打分重排序??,?,?■?i?.???;;?H?crf雩呈绳輅i ̄ ̄?1?wmm?"It??pj?分W?1?I??:??—??————CRF賴分类???1??l??I?I?*??r??????????I?.麵施略?^结待?!??|?CRF特征織?I?块?I?I?,??j?“?A?|?基于hadoop?|i??,_?的网络爬虫系??|??????,???H?—二?1?丨统?l|??高层分类持征?p分词词典j-?分类词库底层h类巧征:??通过对中文机构名?????卜.究制定特定,1丨…??f互联网词f? ̄"T?JL??:??V?典库?I?!????训练语抖|??i?iji;as????一…?????????_」??图3-丨DCRF-Rule-Web简称生成框架??图3-1可知
图5-3企业负面信息采集系统整体模块图??本系统采用B/S模式,企业负面信息采集、分析和展示工作独立区分开来
???J??图5-3企业负面信息采集系统整体模块图??本系统采用B/S模式,企业负面信息采集、分析和展示工作独立区分开来。当采集??系统将数据采集入库后将通知企业负面信息分析系统进行分析,最后由企业负面信息前??端负面向客户端推送采集报告信息。??,?綱S?:?HTTP臓?C225-??J*;?<?层.网络层?TCP/iP??互目夭巧?'、?闽8脃务雅??|?織鄉数蓮??1?&?■■-3??I?^??APP??-ir?a?W?H?-rj:-??用户??图5-4企业负面信息采集系统物理拓扑图??48??
【参考文献】
相关期刊论文 前9条
1 刘龙飞;杨亮;张绍武;林鸿飞;;基于卷积神经网络的微博情感倾向性分析[J];中文信息学报;2015年06期
2 梁军;柴玉梅;原慧斌;高明磊;昝红英;;基于极性转移和LSTM递归网络的情感分析[J];中文信息学报;2015年05期
3 牛永洁;张成;;多种字符串相似度算法的比较研究[J];计算机与数字工程;2012年03期
4 焦妍;王厚峰;张龙凯;;基于条件随机场与Web数据的缩略语预测[J];中文信息学报;2012年02期
5 陈超;朱洪波;王亚强;韩国辉;谭斌;于中华;;中文财经文本中公司名简称的自动识别[J];四川大学学报(自然科学版);2011年02期
6 白鸽;左万利;赵乾坤;曲仁镜;;使用机器学习对汉语评论进行情感分类[J];吉林大学学报(理学版);2009年06期
7 钟良伍;郑方;;基于中文机构名简称的检索方法研究[J];中文信息学报;2007年01期
8 林茂灿;汉语语调与声调[J];语言文字应用;2004年03期
9 王洪伟;刘勰;尹裴;廖雅国;;Web文本情感分类研究综述[J];情报学报;2010年05期
相关硕士学位论文 前1条
1 王涛;金融信贷背景下分布式信息采集策略研究[D];南京大学;2016年
本文编号:2863151
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2863151.html