基于数据挖掘的企业欠税预测研究
发布时间:2021-07-07 20:01
随着数据挖掘技术的广泛应用,通过数据挖掘等方法发现隐藏在大量业务数据背后的知识,将这些知识应用于决策支撑、商品营销等多个场景,可以为政府工作带来很多便利、为企业带来更多营收。利用数据挖掘技术针对税务数据进行企业欠税预测研究可以保障国家税收收入,同时为税务稽查部门带来很多便利。本文以某省地税局提供的税额征收记录以及企业注册信息为基础开展税源欠税研究,首先分析了税务记录的数据特点,如各字段的含义以及字段之间的关联,并据此制定了对应的过滤策略。为研究企业纳税行为与宏观经济及所在地区的关系,本文基于征收记录以及税务部门提供的数据字典建立事实表和维度表,从而建立数据仓库进行多维主题分析。通过多维主题分析发现,企业纳税税额及欠税行为与行业发展、所在地区存在一定的时间关联性,因此本文统计企业的税务数据包括每个企业每月的缴税数据、企业所在行业每月的缴税数据、企业所在区域每月的缴税数据作为判断企业是否欠税的一类决策特征,同时建立基于投资人、法人等关联人的企业网络,统计企业所关联企业每月的缴税情况作为描述企业营收情况的一类特征。为保障国家税收收入,本文根据企业之前一段时间的缴税信息预测下一个月企业是否欠税...
【文章来源】:重庆大学重庆市 211工程院校 985工程院校 教育部直属院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
数据仓库关系图
料数据存储与管理OLAP服务 前端数据集市图 2.4 数据仓库关系图Figure 2.4 Data warehouse diagram供了支持决策分析全过程的解决方案,包括:从出决策所需要的数据;对源数据进行清理和整合;根据所需要的支持决策,对数据进行组织和分现出来。数据仓库层次结构包括第一层的数据获高层为数据挖掘层。数据挖掘层
图 3.1 纳税数据雪花模型Figure 3.1 Snowflake model of tax data根据图 3.1 中的雪花数据模型,它由一个事实表和 3 个维度表(真实分析时不止 4 个)组成,事实表表示的是一段时间内某一地区某一行业内企业缴税的所有记录,时间表通过年、月、日的组合来表示税收数据产生的时间,税务机关表通过税务局、税务所的组合在空间上表示税收数据的归属,行业则是从企业所属的国标类别进行划分,分析各行业的税收分布情况。3.3.3数据库维度表数据准备依据设计好的雪花模型,在使用 SQL Server Data Tools 建立数据仓库之前,整理数据库内事实表中相应字段的数据字典,作为维度表对事实表中关键属性进行解释、描述。因此,本文涉及到的维度表有:DimCZLX(处置类型)、DimDate(时间)、DimDjzclx(登记注册类型)、DimDwlsgx(单位隶属关系)、DimGDGHLX(国地共管)、DimIndustry(行业)、DimJdxz(街道乡镇)、DimNSRZT(纳税人主体)、DimSbfs(申报发生)、DimSbsx(申报属性)、DimSjgsdq(数据归属地区)
【参考文献】:
期刊论文
[1]大数据时代强化税收风险管理的思考[J]. 彭骥鸣,陈爱明,韩晓琴. 税收经济研究. 2014(05)
[2]大数据时代的机遇与挑战[J]. 邬贺铨. 中国经贸. 2013(06)
[3]特征选择方法综述[J]. 姚旭,王晓丹,张玉玺,权文. 控制与决策. 2012(02)
[4]数据挖掘中分类算法综述[J]. 李玲俐. 重庆师范大学学报(自然科学版). 2011(04)
[5]关联规则数据挖掘在税务稽查系统中的应用[J]. 徐慎刚. 财政监督. 2011(19)
[6]一种基于信息增益的特征优化选择方法[J]. 刘庆和,梁正友. 计算机工程与应用. 2011(12)
[7]基于聚类分析的税种分类方法[J]. 岳为民. 武汉理工大学学报(信息与管理工程版). 2009(03)
[8]税收收入预测的时间序列方法选择[J]. 郭剑川,刘黎明. 统计与决策. 2009(05)
[9]遗传算法优化BP神经网络在纳税评估中的应用[J]. 蔡伟鸿,郭陈熹. 汕头大学学报(自然科学版). 2008(02)
[10]一个高效的KNN分类算法[J]. 张著英,黄玉龙,王翰虎. 计算机科学. 2008(03)
硕士论文
[1]数据挖掘在税收分析中的应用研究[D]. 刘文楠.财政部财政科学研究所 2014
[2]基于聚类的数据挖掘技术在税源监控中的应用[D]. 张佳瑶.财政部财政科学研究所 2013
[3]基于关联规则挖掘的分类算法研究[D]. 许立莎.西安科技大学 2012
[4]基于数据仓库技术的税收分析系统的研究与设计[D]. 王慧林.河南理工大学 2009
[5]纳税信用等级评定分类方法应用研究[D]. 徐邵兵.合肥工业大学 2007
[6]聚类分析在税源管理中的应用研究[D]. 张建民.合肥工业大学 2007
[7]数据仓库在纳税评估系统中的应用[D]. 于晓红.中国海洋大学 2006
[8]我国税收收入预测模型探讨及实证分析[D]. 朱争.苏州大学 2006
本文编号:3270274
【文章来源】:重庆大学重庆市 211工程院校 985工程院校 教育部直属院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
数据仓库关系图
料数据存储与管理OLAP服务 前端数据集市图 2.4 数据仓库关系图Figure 2.4 Data warehouse diagram供了支持决策分析全过程的解决方案,包括:从出决策所需要的数据;对源数据进行清理和整合;根据所需要的支持决策,对数据进行组织和分现出来。数据仓库层次结构包括第一层的数据获高层为数据挖掘层。数据挖掘层
图 3.1 纳税数据雪花模型Figure 3.1 Snowflake model of tax data根据图 3.1 中的雪花数据模型,它由一个事实表和 3 个维度表(真实分析时不止 4 个)组成,事实表表示的是一段时间内某一地区某一行业内企业缴税的所有记录,时间表通过年、月、日的组合来表示税收数据产生的时间,税务机关表通过税务局、税务所的组合在空间上表示税收数据的归属,行业则是从企业所属的国标类别进行划分,分析各行业的税收分布情况。3.3.3数据库维度表数据准备依据设计好的雪花模型,在使用 SQL Server Data Tools 建立数据仓库之前,整理数据库内事实表中相应字段的数据字典,作为维度表对事实表中关键属性进行解释、描述。因此,本文涉及到的维度表有:DimCZLX(处置类型)、DimDate(时间)、DimDjzclx(登记注册类型)、DimDwlsgx(单位隶属关系)、DimGDGHLX(国地共管)、DimIndustry(行业)、DimJdxz(街道乡镇)、DimNSRZT(纳税人主体)、DimSbfs(申报发生)、DimSbsx(申报属性)、DimSjgsdq(数据归属地区)
【参考文献】:
期刊论文
[1]大数据时代强化税收风险管理的思考[J]. 彭骥鸣,陈爱明,韩晓琴. 税收经济研究. 2014(05)
[2]大数据时代的机遇与挑战[J]. 邬贺铨. 中国经贸. 2013(06)
[3]特征选择方法综述[J]. 姚旭,王晓丹,张玉玺,权文. 控制与决策. 2012(02)
[4]数据挖掘中分类算法综述[J]. 李玲俐. 重庆师范大学学报(自然科学版). 2011(04)
[5]关联规则数据挖掘在税务稽查系统中的应用[J]. 徐慎刚. 财政监督. 2011(19)
[6]一种基于信息增益的特征优化选择方法[J]. 刘庆和,梁正友. 计算机工程与应用. 2011(12)
[7]基于聚类分析的税种分类方法[J]. 岳为民. 武汉理工大学学报(信息与管理工程版). 2009(03)
[8]税收收入预测的时间序列方法选择[J]. 郭剑川,刘黎明. 统计与决策. 2009(05)
[9]遗传算法优化BP神经网络在纳税评估中的应用[J]. 蔡伟鸿,郭陈熹. 汕头大学学报(自然科学版). 2008(02)
[10]一个高效的KNN分类算法[J]. 张著英,黄玉龙,王翰虎. 计算机科学. 2008(03)
硕士论文
[1]数据挖掘在税收分析中的应用研究[D]. 刘文楠.财政部财政科学研究所 2014
[2]基于聚类的数据挖掘技术在税源监控中的应用[D]. 张佳瑶.财政部财政科学研究所 2013
[3]基于关联规则挖掘的分类算法研究[D]. 许立莎.西安科技大学 2012
[4]基于数据仓库技术的税收分析系统的研究与设计[D]. 王慧林.河南理工大学 2009
[5]纳税信用等级评定分类方法应用研究[D]. 徐邵兵.合肥工业大学 2007
[6]聚类分析在税源管理中的应用研究[D]. 张建民.合肥工业大学 2007
[7]数据仓库在纳税评估系统中的应用[D]. 于晓红.中国海洋大学 2006
[8]我国税收收入预测模型探讨及实证分析[D]. 朱争.苏州大学 2006
本文编号:3270274
本文链接:https://www.wllwen.com/jingjilunwen/jiliangjingjilunwen/3270274.html