互联网环境下的涉烟情报辅助研判系统设计与实现
发布时间:2021-01-16 08:58
随着互联网的广泛发展,地下制售假烟团伙在网络中发布大量非法从事烟草经营、走私的信息,我们将这些信息称之为涉烟情报。互联网涉烟情报的收集、甄别和研判是烟草专卖执法人员在打击互联网涉烟违法活动中赖以决策的基础。面对网络涉烟违法活动现状,本文提出了互联网环境下的涉烟情报辅助研判系统方案。整个方案通过如下步骤完成:(1)结合现有数据爬取工具以及本文设计的python爬虫工具对出现涉烟情报的网站、论坛、贴吧等抓取所需文本及图像数据。数据清洗后进行分词、词性标注、命名实体识别、依存句法分析等自然语言底层处理,并对数据进行人工标注,构建涉烟数据集。(2)将文本和图像一起作为涉烟数据筛查模型的输入,模型的输出是与烟草相关的文本及图像。使用基于词频-逆向文件频率方法(Term frequency-inverse document frequency,Tf-idf)将文本语义特征向量化,另外构建了一种简化的卷积神经网络模型,用分类概率值表征配图语义特征,将文本及图像特征融合后进行分类。实验表明,对于涉烟数据筛查,本文提出的基于融合特征的分类准确率较基于单一文本特征的分类准确率提高了2.65%。进一步证明了...
【文章来源】:西北大学陕西省 211工程院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
经过去停用词、分词文本前后对比
于Tf idf文本信息的特征向量表示步骤如下:于在文本中给定的词语it ,它的重要性可表示为:iiknTfkn= 向文件频率 用来度量一个词语的普遍重要性,词 的 计算如下 | |log| :iiDidfd t d= 后词 计算得到的 值为:i i iTf idf = Tf idf中, 表示在文件 中该词出现的次数,∑ 表示文件 中所有词的出 表示文件总数, : ∈ 表示包含词语 的文件数。因此 掉在特定文本库中常见词,保留重要词语,本文采用该方法对文本进并选择前 100 个 值作为最终特征集,如图 12 所示。
图 14 网络权重值可视化特征提取卷积神经网络提取的特征对图像分类,提取的特征是抽文本特征是有丰富语义的特征,不能将两者直接进行特的基础上,需要把不包含语义的抽象特征转化为配图语 SCNN 前向传播过程中的第三层卷积数值为: ∑ 1 示从第 1层的第 个神经元到第 层的第 个神经1层的第 个神经元的激活值, L表示第 层的第 个神最终输出,本文把第 层中第 个神经元的输出表示为: ∑ 和是在所有输出神经元上进行的,这可以证明:
【参考文献】:
期刊论文
[1]基于Word2vec的句子语义相似度计算研究[J]. 李晓,解辉,李立杰. 计算机科学. 2017(09)
[2]“互联网+”新商业模式下涉烟违法犯罪的现状及对策[J]. 卜心农. 发展. 2017(01)
[3]打击互联网涉烟违法犯罪策略探析[J]. 杨守波,郭亭. 法制博览. 2016(01)
[4]论新形势下如何有效打击涉烟违法犯罪活动[J]. 杨天水. 科技视界. 2015(20)
[5]自底向上事件抽取系统(英文)[J]. Xiao DING,Bing QIN,Ting LIU. Frontiers of Information Technology & Electronic Engineering. 2015(07)
[6]公安情报数据分析与研判[J]. 陈瑞,林喜荣,刘松林,李刚,戴晓清,马征. 中国人民公安大学学报(自然科学版). 2008(02)
[7]基于事件框架的信息抽取系统[J]. 梁晗,陈群秀,吴平博. 中文信息学报. 2006(02)
[8]烟草行业科技信息数据库及其远程情报检索网络系统的建立与应用[J]. 程彪,朱弘. 烟草科技. 1997(02)
博士论文
[1]基于社会媒体的市场行情预测方法研究[D]. 丁效.哈尔滨工业大学 2016
[2]自由文本的信息抽取模式获取的研究[D]. 姜吉发.中国科学院研究生院(计算技术研究所) 2004
硕士论文
[1]热点新闻点击量预测及话题演化算法研究[D]. 许婧婷.西北大学 2017
[2]基于多种逻辑关联的公安情报信息研判系统的设计与实现[D]. 周硕.苏州大学 2016
[3]公安盗抢情报信息管理系统的设计与实现[D]. 高湛.福州大学 2014
[4]半监督中文事件抽取方法的研究[D]. 徐霞.苏州大学 2014
本文编号:2980526
【文章来源】:西北大学陕西省 211工程院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
经过去停用词、分词文本前后对比
于Tf idf文本信息的特征向量表示步骤如下:于在文本中给定的词语it ,它的重要性可表示为:iiknTfkn= 向文件频率 用来度量一个词语的普遍重要性,词 的 计算如下 | |log| :iiDidfd t d= 后词 计算得到的 值为:i i iTf idf = Tf idf中, 表示在文件 中该词出现的次数,∑ 表示文件 中所有词的出 表示文件总数, : ∈ 表示包含词语 的文件数。因此 掉在特定文本库中常见词,保留重要词语,本文采用该方法对文本进并选择前 100 个 值作为最终特征集,如图 12 所示。
图 14 网络权重值可视化特征提取卷积神经网络提取的特征对图像分类,提取的特征是抽文本特征是有丰富语义的特征,不能将两者直接进行特的基础上,需要把不包含语义的抽象特征转化为配图语 SCNN 前向传播过程中的第三层卷积数值为: ∑ 1 示从第 1层的第 个神经元到第 层的第 个神经1层的第 个神经元的激活值, L表示第 层的第 个神最终输出,本文把第 层中第 个神经元的输出表示为: ∑ 和是在所有输出神经元上进行的,这可以证明:
【参考文献】:
期刊论文
[1]基于Word2vec的句子语义相似度计算研究[J]. 李晓,解辉,李立杰. 计算机科学. 2017(09)
[2]“互联网+”新商业模式下涉烟违法犯罪的现状及对策[J]. 卜心农. 发展. 2017(01)
[3]打击互联网涉烟违法犯罪策略探析[J]. 杨守波,郭亭. 法制博览. 2016(01)
[4]论新形势下如何有效打击涉烟违法犯罪活动[J]. 杨天水. 科技视界. 2015(20)
[5]自底向上事件抽取系统(英文)[J]. Xiao DING,Bing QIN,Ting LIU. Frontiers of Information Technology & Electronic Engineering. 2015(07)
[6]公安情报数据分析与研判[J]. 陈瑞,林喜荣,刘松林,李刚,戴晓清,马征. 中国人民公安大学学报(自然科学版). 2008(02)
[7]基于事件框架的信息抽取系统[J]. 梁晗,陈群秀,吴平博. 中文信息学报. 2006(02)
[8]烟草行业科技信息数据库及其远程情报检索网络系统的建立与应用[J]. 程彪,朱弘. 烟草科技. 1997(02)
博士论文
[1]基于社会媒体的市场行情预测方法研究[D]. 丁效.哈尔滨工业大学 2016
[2]自由文本的信息抽取模式获取的研究[D]. 姜吉发.中国科学院研究生院(计算技术研究所) 2004
硕士论文
[1]热点新闻点击量预测及话题演化算法研究[D]. 许婧婷.西北大学 2017
[2]基于多种逻辑关联的公安情报信息研判系统的设计与实现[D]. 周硕.苏州大学 2016
[3]公安盗抢情报信息管理系统的设计与实现[D]. 高湛.福州大学 2014
[4]半监督中文事件抽取方法的研究[D]. 徐霞.苏州大学 2014
本文编号:2980526
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2980526.html