基于Web的主题相关数据源识别技术研究
发布时间:2021-04-08 18:26
互联网自诞生以来迅猛发展,数据呈现爆炸式增长的趋势。互联网上的数据具有独特的特点,其中的大部分数据都是非结构化的文本,不同主题的数据分散在互联网的不同节点上,这给用户有效利用互联网数据带来了极大困难。用户对于数据源的需求往往是面向主题的,搜索引擎的出现使得人们可以向搜索引擎提交查询来获得某一主题的数据源。然而搜索引擎提交查询时采用关键词的形式,单个的关键词不能准确表征一个主题。同时,使用单个主题关键词进行搜索会返回大量与查询主题无关的数据源,需要用户花费大量时间筛选返回结果。如何快速对搜索引擎返回的大量数据源进行主题识别成为一个热门研究问题。本文通过对现有数据源识别方法进行分析,发现现有数据源识别方法仅仅考虑数据源内容与查询的相关度,而数据源与查询的相关度与很多因素有关,本文提出将数据源文档数量、数据源权威性、数据源主题相结合计算数据源与查询相关度,进行主题相关数据源识别的方法,主要贡献如下:(1)提出了基于Web的主题相关数据源集成框架。针对单个通用搜索引擎对特定主题查询的返回结果覆盖率低、数据量庞大等问题,本文集成多个搜索引擎进行主题数据源查询来提高搜索结果的查全率,通过向集成接口...
【文章来源】:天津理工大学天津市
【文章页数】:53 页
【学位级别】:硕士
【部分图文】:
高考搜索结果
【参考文献】:
期刊论文
[1]特征驱动的关键词提取算法综述[J]. 常耀成,张宇翔,王红,万怀宇,肖春景. 软件学报. 2018(07)
[2]挖掘专利知识实现关键词自动抽取[J]. 陈忆群,周如旗,朱蔚恒,李梦婷,印鉴. 计算机研究与发展. 2016(08)
[3]Web数据源选择技术[J]. 万常选,邓松,刘喜平,廖国琼,刘德喜,江腾蛟. 软件学报. 2013(04)
[4]基于数据质量的Deep Web数据源排序[J]. 余伟,李石君,文利娟,田建伟. 小型微型计算机系统. 2010(04)
本文编号:3126035
【文章来源】:天津理工大学天津市
【文章页数】:53 页
【学位级别】:硕士
【部分图文】:
高考搜索结果
【参考文献】:
期刊论文
[1]特征驱动的关键词提取算法综述[J]. 常耀成,张宇翔,王红,万怀宇,肖春景. 软件学报. 2018(07)
[2]挖掘专利知识实现关键词自动抽取[J]. 陈忆群,周如旗,朱蔚恒,李梦婷,印鉴. 计算机研究与发展. 2016(08)
[3]Web数据源选择技术[J]. 万常选,邓松,刘喜平,廖国琼,刘德喜,江腾蛟. 软件学报. 2013(04)
[4]基于数据质量的Deep Web数据源排序[J]. 余伟,李石君,文利娟,田建伟. 小型微型计算机系统. 2010(04)
本文编号:3126035
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3126035.html