基于密度聚类的空间文本查询
【学位单位】:西安电子科技大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP311.13;TP391.1
【部分图文】:
西安电子科技大学硕士学位论文40图5.1 查询关键字个数对相关对象集和系统 IO 开销的影响图图5.2 查询关键字个数对精准算法的影响图图 5.2 展示了不同算法的运行时间与查询关键字数量之间的关系。实验表明,随着查询关键字个数的增多,搜索到的相关空间文本对象的数量在不断增加,各个算法的运行时间都有不同程度的增加,主要有如下两方面的原因:一是随着查询关键字数量的增多,在对IR2树搜索时需要遍历到更多的节点,增加了生成相关对象集的时间;二是相关对象集的增大,增加了对相关对象集进行基于密度聚类的时间。随着查询关键字个数的增加 Base 算法的运行时间增长幅度最大。因为当查询关键字个数多时,相关对象集中对象的密度会变大
40图5.1 查询关键字个数对相关对象集和系统 IO 开销的影响图图5.2 查询关键字个数对精准算法的影响图图 5.2 展示了不同算法的运行时间与查询关键字数量之间的关系。实验表明,随着查询关键字个数的增多,搜索到的相关空间文本对象的数量在不断增加,各个算法的运行时间都有不同程度的增加,主要有如下两方面的原因:一是随着查询关键字数量的增多,在对IR2树搜索时需要遍历到更多的节点,增加了生成相关对象集的时间;二是相关对象集的增大,增加了对相关对象集进行基于密度聚类的时间。随着查询关键字个数的增加 Base 算法的运行时间增长幅度最大。因为当查询关键字个数多时,相关对象集中对象的密度会变大
在使用基于密度聚类的空间文本查询方法时,用户可以输入指定的最大可接受距离 r,即返回的所有相关空间文本对象都在此区域内,避免了返回的结果簇集距离查询点过远用户难以接受的情况。如图5.3所示,随着用户输入最大可接受距离的增大,会有更多的相关对象产生。相比于查询关键字数量对相关对象集中对象数量的影响,最大可接受距离的影响较小。这是因为数据集中空间文本对象的密度固定,增大距离搜索到的相关对象集变化较小。同样随着最大可接受距离的增大,在对 IR2树搜索时需要访问更多的节点从而增加了系统的 IO 开销。最大可接受距离和查询关键字数量对系统 IO 开销的影响类似,在相同最大接受距离的情况下,雁塔区数据集的系统 IO开销大。图 5.4 展示了不同最大可接受距离对各算法运行时间的影响,各算法的运行时间增加主要有如下两方面的原因:首先是随着最大可接受距离的增大,对 IR2树中的节点搜索增加
【相似文献】
相关期刊论文 前10条
1 汪明霓;BASIC文本系统[J];计算机应用研究;1988年01期
2 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期
3 娄道国;李若斌;刘冰;张冬冬;;云计算下各分散文本数据的全方位集成融合方法[J];科技通报;2019年02期
4 张慧伦;;伴随文本:透视网络文学发展的重要路径[J];百家评论;2019年04期
5 潘大胜;;不确定噪声下海量文本数据的模糊挖掘算法研究[J];微电子学与计算机;2017年09期
6 潘艳艳;;陈运文:做文本数据领域的“先知”[J];张江科技评论;2020年01期
7 王珊珊;冯利鑫;;基于新词识别的大数据聊天文本舆情热点挖掘[J];电子商务;2018年01期
8 陈晓峰;如何在flash中读入外部文本数据[J];电脑知识与技术;2004年13期
9 马欣欣;林克;;大文本数据快速分析统计理论与算法[J];电子元器件与信息技术;2019年01期
10 施瑞朗;;基于社交平台数据的文本分类算法研究[J];电子科技;2018年10期
相关会议论文 前10条
1 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年
2 陈光强;杨树强;张晓辉;李润恒;贾焰;;面向海量文本数据的多任务并行调度加载技术研究与实现[A];第15届全国信息存储技术学术会议论文集[C];2008年
3 周纯洁;黎]
本文编号:2830967
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2830967.html