基于Lucene搜索引擎的涉恐信息检索模块设计与实现
发布时间:2021-10-05 15:30
互联网中存在大量涉恐信息,加强对这些信息的组织与利用,在防恐、反恐中起着重要的作用。针对网络涉恐信息零散情况,通过网络爬虫技术收集互联网上的涉恐信息,构建涉恐信息数据库;在此基础上,引入中文分词器进行合理粒度分词,使用Lucene构建全文搜索引擎以提升检索效率。同时,在建立索引时根据文档包含涉恐信息特征词汇的数量改变权重,查询时包含多特征词汇的涉恐信息排序更靠前。系统采用Python进行信息采集和数据结构化,使用MySQL构建涉恐信息数据库,通过Lucene构建全文检索引擎,测试表明,该引擎能够快速、准确地完成信息检索。
【文章来源】:信息技术与网络安全. 2019,38(11)
【文章页数】:6 页
【文章目录】:
0 引言
1 系统总体架构
2 涉恐信息爬虫及数据库建立
2.1 涉恐信息爬虫
2.2 涉恐信息分类与实体抽取
2.3 数据库建立
3 全文搜索引擎设计
3.1 倒排索引
3.2 中文分词器选择
3.3 搜索结果排序
3.4 查询及高亮显示
4 搜索引擎实现与性能测试
4.1 检索命中文档数及查询耗时对比
4.2 检索得分排序对比
5 结论
【参考文献】:
期刊论文
[1]网络反恐知识库构建研究[J]. 黄炜,余辉,李岳峰. 情报杂志. 2017(05)
[2]全球恐怖主义数据库及对中国反恐数据库建设的启示[J]. 周松青. 情报杂志. 2016(09)
[3]基于大数据的反恐情报数据仓库体系结构设计[J]. 瞿志凯,张婷. 情报杂志. 2016(02)
[4]我国民族因素突发事件案例统计评析与应对策略——基于1980-2015年中国大陆民族因素突发事件知识库的研究[J]. 吴锋,张红强. 情报杂志. 2016(01)
[5]统计与词典相结合的领域自适应中文分词[J]. 张梅山,邓知龙,车万翔,刘挺. 中文信息学报. 2012(02)
[6]各国建立反恐情报数据库情况综述[J]. 高颖. 国际资料信息. 2005(08)
硕士论文
[1]基于循环神经网络模型的文本分类[D]. 龚千健.华中科技大学 2016
[2]基于Lucene的全文搜索引擎的研究与实现[D]. 何荣杰.江苏科技大学 2016
[3]我国反恐情报的搜集与利用[D]. 谭啸.南京大学 2015
[4]基于全球恐怖主义数据库的社会安全事件时空关联分析方法研究[D]. 郭文月.解放军信息工程大学 2015
[5]潍坊市公安局反恐管理系统的设计与实现[D]. 赵新颖.山东大学 2013
本文编号:3420032
【文章来源】:信息技术与网络安全. 2019,38(11)
【文章页数】:6 页
【文章目录】:
0 引言
1 系统总体架构
2 涉恐信息爬虫及数据库建立
2.1 涉恐信息爬虫
2.2 涉恐信息分类与实体抽取
2.3 数据库建立
3 全文搜索引擎设计
3.1 倒排索引
3.2 中文分词器选择
3.3 搜索结果排序
3.4 查询及高亮显示
4 搜索引擎实现与性能测试
4.1 检索命中文档数及查询耗时对比
4.2 检索得分排序对比
5 结论
【参考文献】:
期刊论文
[1]网络反恐知识库构建研究[J]. 黄炜,余辉,李岳峰. 情报杂志. 2017(05)
[2]全球恐怖主义数据库及对中国反恐数据库建设的启示[J]. 周松青. 情报杂志. 2016(09)
[3]基于大数据的反恐情报数据仓库体系结构设计[J]. 瞿志凯,张婷. 情报杂志. 2016(02)
[4]我国民族因素突发事件案例统计评析与应对策略——基于1980-2015年中国大陆民族因素突发事件知识库的研究[J]. 吴锋,张红强. 情报杂志. 2016(01)
[5]统计与词典相结合的领域自适应中文分词[J]. 张梅山,邓知龙,车万翔,刘挺. 中文信息学报. 2012(02)
[6]各国建立反恐情报数据库情况综述[J]. 高颖. 国际资料信息. 2005(08)
硕士论文
[1]基于循环神经网络模型的文本分类[D]. 龚千健.华中科技大学 2016
[2]基于Lucene的全文搜索引擎的研究与实现[D]. 何荣杰.江苏科技大学 2016
[3]我国反恐情报的搜集与利用[D]. 谭啸.南京大学 2015
[4]基于全球恐怖主义数据库的社会安全事件时空关联分析方法研究[D]. 郭文月.解放军信息工程大学 2015
[5]潍坊市公安局反恐管理系统的设计与实现[D]. 赵新颖.山东大学 2013
本文编号:3420032
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3420032.html