基于大数据的污染源普查清查方法学研究
发布时间:2020-12-23 10:24
为了加强对环境污染的监督管理,及时了解及记录各企事业单位潜在的环境污染基本信息,我国于2008年开展了第一次全国污染源普查。在第一次全国污染源普查工作中,囿于我国当时的认识及技术手段和数据分析能力有限,存在许多不足之处。当时在污染源普查清查阶段,政府部门仅根据企业的行业分类代码进行筛选,形成一份基本单位名录作为清查阶段的入户依据。但政府部门数据的不完整以及筛选所用的行业类别代码存在大量错误,致使清查基本单位名录存在相当数量的漏失企业,造成工业污染源基本单位名录不准确。我国第二次污染源普查于2018年开始,因此,本研究希望利用大数据及相关技术,以工商数据中的企业经营范围作为基础,识别并纠正行业类别,同时利用互联网大数据技术对基本单位名录进行增补,最终优化污染源普查清查阶段数据处理流程、提升基本单位名录的构建效率和准确度。首先,本研究对可使用的方法进行比较,对政府部门所提供的数据进行评价和筛选,在海量数据处理的背景下,构建机器学习分类模型。以此为基础,按照机器学习处理实际问题的基本思路,首先构造标准数据集并验证其准确性及可用性,利用多种分类算法进行比较分析,择优使用。随后以此构建的标定数据...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:92 页
【学位级别】:硕士
【部分图文】:
总技术路线图
哈尔滨工业大学工学硕士学位论文2.2.2.2 自然语言处理自然语言处理技术(Nature Language Processing)是通过使用计算机对语言文字进行处理的技术及应用。近几年,随着大数据时代的到来,机器计算能力的飞速提升以及机器学习算法的广泛应用,为自然语言处理在应用范围带来了新的突破。目前,中文自然语言处理是国内大数据应用领域的一个热点方向。其研究成果已广泛应用于文本分类[44-46]等领域。处理流程包含数据的采集与标记、数据清洗、特征选择、模型选择、训练与测试和性能评估优化等部分。在文本分类问题中,基于统计的机器学习方法目前应用较为广泛。其一般思路为先在全部文档中均匀抽取部分文档,进行类别标记,并以此为训练集,然后在所得训练集中寻找词语与类别的联系。将以上总结出的联系利用数学表达式进行阐述,并指导分类预测。由于该方法理论基础较好,容易得到令人满意的分类效果。如图 2-1 所示,就是基于统计的文本分类系统的示意图。
哈尔滨工业大学工学硕士学位论文过网络爬虫技术获取,其中搜集的企业数据来源包括基于公共地图服务的企业类别兴趣点数据、互联网网页公开数据、商业渠道获取的数据,共涉及到天眼查、阿里巴巴、企查查、猎聘网、智联招聘和阿土伯黄页数据。结合基础地理信息数据库与企业信息数据库,第三方团队一共获取了近24 万条企业数据。这些数据经过规整化处理后统一存入企业信息数据库,如图 4-1 所示。
【参考文献】:
期刊论文
[1]互联网大数据在政府统计中的应用研究[J]. 杨海霞,张艺海. 化工管理. 2018(33)
[2]关于第二次全国污染源普查清查工作的思考[J]. 陈毅,赵建成,姜刘志. 绿色科技. 2018(20)
[3]机器学习综述[J]. 石弘一. 通讯世界. 2018(10)
[4]我国环境管理新进展及环境大数据技术应用展望[J]. 汪自书,胡迪. 中国环境管理. 2018(05)
[5]基于大数据的污染企业环保督查及产能规划指导方案[J]. 贾玉玮,徐乐西,晁昆,曹丽娟,程新洲. 邮电设计技术. 2018(10)
[6]环保大数据分析系统在环境污染管理中的应用[J]. 张布宇,王寒,王春迎. 智库时代. 2018(36)
[7]我国排污许可制发展分析[J]. 宛文博,俞钦钦,高鸣,李冰. 环境与发展. 2017(10)
[8]基于TFIDF的社区问答系统问句相似度改进算法[J]. 赵胜辉,李吉月,徐碧,孙博研. 北京理工大学学报. 2017(09)
[9]对第二次全国污染源普查的若干思考和建议[J]. 张震,赵银慧,王军霞,景立新. 环境保护. 2017(07)
[10]第二次全国污染源普查工作的思考与建议——以三明市为例[J]. 林新尧. 绿色科技. 2016(12)
本文编号:2933548
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:92 页
【学位级别】:硕士
【部分图文】:
总技术路线图
哈尔滨工业大学工学硕士学位论文2.2.2.2 自然语言处理自然语言处理技术(Nature Language Processing)是通过使用计算机对语言文字进行处理的技术及应用。近几年,随着大数据时代的到来,机器计算能力的飞速提升以及机器学习算法的广泛应用,为自然语言处理在应用范围带来了新的突破。目前,中文自然语言处理是国内大数据应用领域的一个热点方向。其研究成果已广泛应用于文本分类[44-46]等领域。处理流程包含数据的采集与标记、数据清洗、特征选择、模型选择、训练与测试和性能评估优化等部分。在文本分类问题中,基于统计的机器学习方法目前应用较为广泛。其一般思路为先在全部文档中均匀抽取部分文档,进行类别标记,并以此为训练集,然后在所得训练集中寻找词语与类别的联系。将以上总结出的联系利用数学表达式进行阐述,并指导分类预测。由于该方法理论基础较好,容易得到令人满意的分类效果。如图 2-1 所示,就是基于统计的文本分类系统的示意图。
哈尔滨工业大学工学硕士学位论文过网络爬虫技术获取,其中搜集的企业数据来源包括基于公共地图服务的企业类别兴趣点数据、互联网网页公开数据、商业渠道获取的数据,共涉及到天眼查、阿里巴巴、企查查、猎聘网、智联招聘和阿土伯黄页数据。结合基础地理信息数据库与企业信息数据库,第三方团队一共获取了近24 万条企业数据。这些数据经过规整化处理后统一存入企业信息数据库,如图 4-1 所示。
【参考文献】:
期刊论文
[1]互联网大数据在政府统计中的应用研究[J]. 杨海霞,张艺海. 化工管理. 2018(33)
[2]关于第二次全国污染源普查清查工作的思考[J]. 陈毅,赵建成,姜刘志. 绿色科技. 2018(20)
[3]机器学习综述[J]. 石弘一. 通讯世界. 2018(10)
[4]我国环境管理新进展及环境大数据技术应用展望[J]. 汪自书,胡迪. 中国环境管理. 2018(05)
[5]基于大数据的污染企业环保督查及产能规划指导方案[J]. 贾玉玮,徐乐西,晁昆,曹丽娟,程新洲. 邮电设计技术. 2018(10)
[6]环保大数据分析系统在环境污染管理中的应用[J]. 张布宇,王寒,王春迎. 智库时代. 2018(36)
[7]我国排污许可制发展分析[J]. 宛文博,俞钦钦,高鸣,李冰. 环境与发展. 2017(10)
[8]基于TFIDF的社区问答系统问句相似度改进算法[J]. 赵胜辉,李吉月,徐碧,孙博研. 北京理工大学学报. 2017(09)
[9]对第二次全国污染源普查的若干思考和建议[J]. 张震,赵银慧,王军霞,景立新. 环境保护. 2017(07)
[10]第二次全国污染源普查工作的思考与建议——以三明市为例[J]. 林新尧. 绿色科技. 2016(12)
本文编号:2933548
本文链接:https://www.wllwen.com/kejilunwen/huanjinggongchenglunwen/2933548.html