当前位置:主页 > 法律论文 > 刑法论文 >

基于主题模型的经济犯罪智能检索方法研究

发布时间:2020-05-03 12:17
【摘要】:随着公安经济侦查业务的扩展,历史数据的日益增多,人工智能技术的广泛使用,针对经济犯罪信息的智能化检索模式已成为经济犯罪侦查领域的迫切需求。目前多数检索引擎大都使用关键词匹配的模式,没有考虑文本内在的语义,导致检索结果的准确率与查全率均不高。为了解决这一问题,主题模型以其挖掘文档隐含概念的优势大量被用在信息检索中,但是仍存在以下问题:第一,其无监督的学习形式,导致生成的主题解释性不够明确;第二,主题模型更适合处理长文本,对特征较少的查询语句不适用。为解决以上问题,本文从智能检索的语义特性出发,提出了一种基于主题模型的智能检索方法。该方法从文档的检索模型和用户提问两个角度进行研究,运用主题模型结合聚类算法挖掘文档的潜在语义,构造文档索引;应用本体技术处理用户提问语句,标准化检索式。首先选择经济犯罪领域专家知识作为主题模型的先验知识,改进了无监督主题模型的主题偏离实际语义的缺陷,实现了半监督性质的主题建模,生成了符合经济犯罪特征的文档主题标签。其次,研究了文档的聚类方法,结合了Bagging集成学习思想,改进了传统k-means算法,以解决原始语料经过主题模型训练生成的文本主题分布较为稀疏的问题。再次,构建了经济犯罪领域本体,描述各个实体间的逻辑关系,并完成本体的持久化,在检索阶段识别出查询语句的语义和逻辑关系,重构用户检索条件,发掘出用户真实检索要求;最后,根据查询与文档的综合匹配率,按照相似度排序结果列表,以提高检索准确率和召回率。在基于主题模型的智能检索方法的基础上,开发了经济犯罪智能检索系统。以某经济犯罪领域数据为样本实例,验证了本文改进的主题模型和智能检索方案的效果与价值。
【图文】:

智能检索,工作机制,语料,输入输出接口


第二章 基于主题模型的智能检索框架设计的知识,对查询条件智能化分析,提供内容的语义理解检索方式。智能检索的研究思路主要从文档的检索模型和用户提问两个角度研究,运用主题模型训练文档,挖掘文档的潜在语义信息,,研究文档的索引构造方法;对用户提问的语句分析,研究检索式标准化的方法。这种方式能够很大程度上解决信息冗余,使得检索准确性有效提高,帮助用户更容易的获得需要的信息。图 2.1 描述了本文采用的智能检索工作机制。

结构图,结构图,查询扩展,主题


第二章 基于主题模型的智能检索框架设计特征选择技术处理原始文档集。其次,结合领域知识,选定合理的文本聚类算法,对杂乱无章的文档集预先聚类。最后,建立适合的主题模型是本文的重点,对主题模型的优缺点进行分析,选定满足需求的主题模型并加以改进,训练出不同文档的主题特征以创建文档倒排索引。查询分发部分。主要由经济犯罪领域本体的查询扩展规则、查询扩展评价规则和查询评分规则组成。查询扩展规则基于经济犯罪本体知识库对用户的查询进行语义扩展,然后扩展评估规则确定最终的查询扩展项,并通过评估领域本体中的扩展查询生成搜索者和评分向量。最后,查询结果评分规则将用户检索日志与评分向量相结合,对结果集中的文档项进行评分和排序,并将最终结果返回给用户。根据上述内容,该检索框架的详细结构如图 2.2 所示。
【学位授予单位】:东北石油大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:D924.3;TP391.3

【参考文献】

相关期刊论文 前7条

1 黄翼彪;;实现Lucene接口的中文分词器的比较研究[J];科技信息;2012年12期

2 吴黎兵;柯亚林;何炎祥;刘楠;;分布式网络爬虫的设计与实现[J];计算机应用与软件;2011年11期

3 贾雪峰;王建新;齐建东;朱礼军;;基于领域本体的智能检索模型[J];计算机工程;2010年23期

4 刘淑梅;夏亮;许南山;;主题搜索引擎网络爬虫搜索策略的研究与实现[J];计算机系统应用;2010年03期

5 贾海蕾;胡宏涛;;Agent技术在企业门户信息检索中的应用[J];计算机时代;2008年10期

6 陆伟;赵浩镇;;基于文档权重归并法的企业专家检索[J];现代图书情报技术;2008年07期

7 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期

相关博士学位论文 前5条

1 尹建华;基于模型的文本聚类算法研究[D];清华大学;2017年

2 唐守利;基于本体的云服务语义检索模型研究[D];吉林大学;2016年

3 陈虹枢;基于主题模型的专利文本挖掘方法及应用研究[D];北京理工大学;2015年

4 王晓春;基于用户搜索历史的个性化信息检索研究[D];哈尔滨工业大学;2015年

5 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年

相关硕士学位论文 前10条

1 曹艳蓉;基于中文社区的智能问答系统的设计与研究[D];南京邮电大学;2018年

2 李亚东;基于本体模型的科技信息知识库管理系统研究与实现[D];北京邮电大学;2018年

3 张少华;OWL本体知识库面向对象表示及应用[D];大连理工大学;2018年

4 徐慧颖;基于查询扩展的微博检索研究[D];大连海事大学;2018年

5 安子建;基于Scrapy框架的网络爬虫实现与数据抓取分析[D];吉林大学;2017年

6 尹通;融合知识的主题模型研究及应用[D];南京理工大学;2017年

7 祝天宇;一种基于查询日志的用户意图分析方法[D];哈尔滨工程大学;2016年

8 张志鹏;基于本体的校园地图智能检索系统的研究[D];青岛大学;2015年

9 胡驰;基于用户偏好的个性化搜索模型研究[D];华中科技大学;2015年

10 王子健;海量多结构数据智能检索中的存取方法研究[D];华中科技大学;2013年



本文编号:2647511

资料下载
论文发表

本文链接:https://www.wllwen.com/falvlunwen/xingfalunwen/2647511.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ac06d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com