基于文本聚类的垂直搜索引擎系统设计与实现
发布时间:2021-03-10 03:56
随着互联网数据的快速增长,垂直搜索引擎也迅速发展起来。但是目前垂直搜索引擎仍然不能帮助用户快速找到自己寻求的目标,只能通过输入关键词之后,对返回的结果集进行人工排查。特别是在关键词具有多重含义时,这种状况尤其明显。为了解决上述问题,本文提出了在文本预处理阶段对数据集中的数据进行聚类处理,并将聚类的结果用于以下三方面:第一个方面是将聚类的结果放入对应的原始数据中,同时提高该聚类结果的权重,使得所属聚类结果与关键词相关度更高的文章位于前列。第二个方面是可以将聚类的结果通过搜索页面的分类导航栏呈现给用户,使得用户能够根据聚类结果,进行相关筛选,更快找到自己需要的内容。第三个方面,由于聚类结果的不稳定性,本文提出了由系统人员参考聚类结果,并定义分类规则的方法,然后利用搜索引擎和分类规则对文本自动分类。为了适应不同领域的数据特性,本文设计了企业数据管理与垂直搜索系统,该系统针对不同领域的数据和不同行业的需求,辅助该领域人员定制自己的搜索引擎系统,从而帮助搜索引擎更好地“理解”数据。本文主要工作如下:第一,提出了改进的tf-idf算法与k-mean结合的聚类算法。为了体现位于文章中不同位置的词对该...
【文章来源】:北京工业大学北京市 211工程院校
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
垂直搜索引擎构造Fig.2-1Thearchitectureofverticalsearchengine⑵索引模块:根据需求建立分词的词库,本文包括中文分词词库与英文分
己的实际需求自定义 Solr 应用。这些配置文件基本上都为 xml 格式,所以用户可以选择直接手动修改配置文件,或者使用 Solr 提供的 API 对配置文件进行修改。本文主要使用的是 manage-schema.xml 来进行自定义配置。Manage-schema 是控制 Solr 索引规范的配置文件。manage-schema 使用字段(fields)的集合来表示一篇文档(document),用户需要在里面定义字段类型(fieldtype)和字段本身的属性。字段类型的定义,是索引时 Solr 对索引文章的字段处理,和查询(query)时 Solr 对于关键词的处理。一个字段类型包括以下 4 个属性:字段类型的名称(必须包含);一个必要的该字段类型的实现类(implementclass);如果该字段类型为“TextField”,那么就需要配置该字段类型对应的分析器(analyzer);根据选用的实现类,配置该实现类对应的属性。2.2.2 Solr 搜索过程Solr 搜索整体时序图如图 2-2 所示:
图 2-3 SolrCloud 体系结构Fig.2-3 The architecture of SolrCloud实线连接部分为 SolrCloud 的物理结构,虚线连接部分为逻辑结构。各部分详细介绍如下:Collection:Collection 是 SolrCloud 逻辑意义上完整的索引,产品逻辑上可以理解为一个数据集,一个 SolrCloud 集群可以有多个 Collection。Shard:Shard 是 Collection 中的逻辑分片,一个 Collection 包含多个 Shard,每一个 Shard 包含 Collection 的一部分文档,具体每个 Shard 包含那些文档,包含多少文档,由 Collection 的分片策略所决定。Shard 的数量控制着 Collection 理论上能包含的文档数量和单个搜索请求可能的并行量。Leader:活跃状态(active)的 Replica。每个 Shard 有多个 Replicas,但是一般只有一个 Replica 会处在活跃状态,其他的位于备用状态,而活跃的 Replica 就是被选举出来的 Leader。Leader 的选举初始化时是先来先得的方式,后续会根据Zookeeper 的规则进行选举。如果一个 Leader 故障了,其他 Replica 中的一个会被自动选为新的 Leader。当文档被发送到 Solr 节点进行索引时,系统首先确定
本文编号:3074013
【文章来源】:北京工业大学北京市 211工程院校
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
垂直搜索引擎构造Fig.2-1Thearchitectureofverticalsearchengine⑵索引模块:根据需求建立分词的词库,本文包括中文分词词库与英文分
己的实际需求自定义 Solr 应用。这些配置文件基本上都为 xml 格式,所以用户可以选择直接手动修改配置文件,或者使用 Solr 提供的 API 对配置文件进行修改。本文主要使用的是 manage-schema.xml 来进行自定义配置。Manage-schema 是控制 Solr 索引规范的配置文件。manage-schema 使用字段(fields)的集合来表示一篇文档(document),用户需要在里面定义字段类型(fieldtype)和字段本身的属性。字段类型的定义,是索引时 Solr 对索引文章的字段处理,和查询(query)时 Solr 对于关键词的处理。一个字段类型包括以下 4 个属性:字段类型的名称(必须包含);一个必要的该字段类型的实现类(implementclass);如果该字段类型为“TextField”,那么就需要配置该字段类型对应的分析器(analyzer);根据选用的实现类,配置该实现类对应的属性。2.2.2 Solr 搜索过程Solr 搜索整体时序图如图 2-2 所示:
图 2-3 SolrCloud 体系结构Fig.2-3 The architecture of SolrCloud实线连接部分为 SolrCloud 的物理结构,虚线连接部分为逻辑结构。各部分详细介绍如下:Collection:Collection 是 SolrCloud 逻辑意义上完整的索引,产品逻辑上可以理解为一个数据集,一个 SolrCloud 集群可以有多个 Collection。Shard:Shard 是 Collection 中的逻辑分片,一个 Collection 包含多个 Shard,每一个 Shard 包含 Collection 的一部分文档,具体每个 Shard 包含那些文档,包含多少文档,由 Collection 的分片策略所决定。Shard 的数量控制着 Collection 理论上能包含的文档数量和单个搜索请求可能的并行量。Leader:活跃状态(active)的 Replica。每个 Shard 有多个 Replicas,但是一般只有一个 Replica 会处在活跃状态,其他的位于备用状态,而活跃的 Replica 就是被选举出来的 Leader。Leader 的选举初始化时是先来先得的方式,后续会根据Zookeeper 的规则进行选举。如果一个 Leader 故障了,其他 Replica 中的一个会被自动选为新的 Leader。当文档被发送到 Solr 节点进行索引时,系统首先确定
本文编号:3074013
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3074013.html
最近更新
教材专著