开放域党建信息自动获取及智能标引系统的设计与实现
发布时间:2021-02-16 09:28
“互联网+党建”概念提出以来,互联网上党建领域信息日趋丰富。面向党建领域的垂直检索系统可以为党建用户提供专业准确且低冗余的领域内容。构建党建垂直领域检索系统需要以党建领域文本作为基础数据。同时为了提升党建领域垂直检索系统的检索质量,需要将党建领域文本中包含的关键信息标引出来,作为检索结果展示给用户,使返回结果更加直观。如果可以挖掘出用户检索内容中潜在的实体关系,并结合从党建数据中标记出的实体关系对待检索内容进行处理,则可以改善党建领域垂直检索系统中用户查询内容与检索结果之间的相关性。为解决党建领域文本数据的采集问题,本文设计了开放域党建信息自动获取系统,提出了基于语义关系与链接结构、用于预测未访问链接主题相关性的链接主题相关度预测算法,并基于此算法实现了党建领域语义相关度主题爬虫,用于采集互联网开放域中的党建信息。根据选定的主题词,利用页面描述信息,基于维基百科中文语料训练出的词向量综合HowNet计算页面的语义相关度,结合URL的结构信息预测未访问URL链指的页面与党建领域的相关程度。最终将系统采集到的党建领域数据作为构建党建领域垂直搜索引擎的基础数据。为解决目前缺少用于提升党建领域...
【文章来源】:中国科学院大学(中国科学院沈阳计算技术研究所)辽宁省
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
采集系统处理流程示意图
图 3.2 采集系统架构示意图Figure 3.2 Schematic diagram of acquisition system architecture种子任务表示采集起始链接的采集任务,采集模块首先将种子任务提交至待采集队列。对于队列内未访问的链接,首先计算其指向页面的概述信息与党建主题的语义相关度,若不相关则认为页面属于党建主题的概率较低,改用主题词直接匹配的方式处理;否则,解析该链接指向的页面正文,并对其中各链接计算其锚文本与党建主题的语义相关度、链接的结构信息并综合得到未访问链接主题相关度并进行过滤。为解决采集量级较大时计算链接结构信息开销过大的问题,采用从缓存中抽样的方式以降低耗时。采集模块的工作流程如图 3.3。
图 3.3 采集模块工作流程图Figure 3.3 Flow chart of collector module化模块包括数据库存储、文件存储两个部分。采集过程的临时结果中,采集模块需要加载的部分数据保存于文件。为加速语义相关度计算相似度的数据文件被构建外部索引,利用索引加速查询数据文件过计算中间结果添加至内存缓存,以加快党建信息采集速率。来自采集数据与过滤模块的处理结果均持久化到数据库。对于持久化模块,针 流处理任务,中间结果被发送至为流处理器提供服务的消息队列之后续包装器对保存于消息队列中的格式化文本数据,进行关系抽取理后,生成实时 RDF 流,由 RDF 流处理引擎进行处理。模块主要负责过滤无关数据,由于部分导航页含有大量 URL,正文对锚文本比例过低,解析正文时准确性降低,导致站点内通用声明信
【参考文献】:
期刊论文
[1]面向图书主题的爬虫算法研究[J]. 张莉婧,曾庆涛,李业丽,孙华艳,字云飞. 计算机科学. 2017(S2)
[2]基于依存分析的开放式中文实体关系抽取方法[J]. 李明耀,杨静. 计算机工程. 2016(06)
[3]基于知识库和主题爬虫的南海舆情实时监测研究[J]. 丁晟春,龚思兰,周文杰,王曰芬. 情报杂志. 2016(05)
[4]基于分类关键词词频模型的地缘政治主题爬虫设计[J]. 魏勇,胡丹露,郝晨光,欧小平. 计算机工程. 2016(02)
[5]一种主动发现网络地理信息服务的主题爬虫[J]. 沈平,桂志鹏,游兰,胡凯,吴华意. 地球信息科学学报. 2015(02)
[6]基于主题相关概念和网页分块的主题爬虫研究[J]. 黄仁,王良伟. 计算机应用研究. 2013(08)
硕士论文
[1]面向检验检疫领域主题爬虫的研究及系统实现[D]. 周桓.浙江大学 2017
本文编号:3036576
【文章来源】:中国科学院大学(中国科学院沈阳计算技术研究所)辽宁省
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
采集系统处理流程示意图
图 3.2 采集系统架构示意图Figure 3.2 Schematic diagram of acquisition system architecture种子任务表示采集起始链接的采集任务,采集模块首先将种子任务提交至待采集队列。对于队列内未访问的链接,首先计算其指向页面的概述信息与党建主题的语义相关度,若不相关则认为页面属于党建主题的概率较低,改用主题词直接匹配的方式处理;否则,解析该链接指向的页面正文,并对其中各链接计算其锚文本与党建主题的语义相关度、链接的结构信息并综合得到未访问链接主题相关度并进行过滤。为解决采集量级较大时计算链接结构信息开销过大的问题,采用从缓存中抽样的方式以降低耗时。采集模块的工作流程如图 3.3。
图 3.3 采集模块工作流程图Figure 3.3 Flow chart of collector module化模块包括数据库存储、文件存储两个部分。采集过程的临时结果中,采集模块需要加载的部分数据保存于文件。为加速语义相关度计算相似度的数据文件被构建外部索引,利用索引加速查询数据文件过计算中间结果添加至内存缓存,以加快党建信息采集速率。来自采集数据与过滤模块的处理结果均持久化到数据库。对于持久化模块,针 流处理任务,中间结果被发送至为流处理器提供服务的消息队列之后续包装器对保存于消息队列中的格式化文本数据,进行关系抽取理后,生成实时 RDF 流,由 RDF 流处理引擎进行处理。模块主要负责过滤无关数据,由于部分导航页含有大量 URL,正文对锚文本比例过低,解析正文时准确性降低,导致站点内通用声明信
【参考文献】:
期刊论文
[1]面向图书主题的爬虫算法研究[J]. 张莉婧,曾庆涛,李业丽,孙华艳,字云飞. 计算机科学. 2017(S2)
[2]基于依存分析的开放式中文实体关系抽取方法[J]. 李明耀,杨静. 计算机工程. 2016(06)
[3]基于知识库和主题爬虫的南海舆情实时监测研究[J]. 丁晟春,龚思兰,周文杰,王曰芬. 情报杂志. 2016(05)
[4]基于分类关键词词频模型的地缘政治主题爬虫设计[J]. 魏勇,胡丹露,郝晨光,欧小平. 计算机工程. 2016(02)
[5]一种主动发现网络地理信息服务的主题爬虫[J]. 沈平,桂志鹏,游兰,胡凯,吴华意. 地球信息科学学报. 2015(02)
[6]基于主题相关概念和网页分块的主题爬虫研究[J]. 黄仁,王良伟. 计算机应用研究. 2013(08)
硕士论文
[1]面向检验检疫领域主题爬虫的研究及系统实现[D]. 周桓.浙江大学 2017
本文编号:3036576
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3036576.html