空间文本数据的量质融合与推送

发布时间:2019-01-25 10:39
【摘要】:随着智能手机等移动设备的普及以及移动互联网络的快速发展,基于地理位置的服务得到了广泛的关注与应用。这些服务产生了大量空间文本数据,既包含空间地理位置,同时又具有相关的文本信息。能否更好地利用这些数据方便我们的日常生活,有两个方面的因素尤其值得考虑:第一,数据质量,高质量的数据能够提升用户体验;第二,用户获得信息的途径,用户需要高效便捷的获得感兴趣数据的方式。本文主要针对这两方面展开研究:一方面对空间文本数据进行质量优化,包括提高数据准确性,降低数据冗余;另一方面研究如何应对不同用户的需求,将空间文本数据信息高效地推送给用户。本文的研究内容与贡献具体包括:(1)基于众包的空间文本数据提纯:为保证数据正确性,用众包的方法帮助筛选数据中的正确关键词。本文提出了基于众包的任务执行框架。一方面,将空间文本数据作为任务发布在众包平台上并收集工人答案。为能够根据工人答案筛选正确关键词,结合工人质量等因素构造了一个有效的推断模型。另一方面,为进一步提高推断准确率,研究了能够最大化推断准确率提升的众包任务分配算法。(2)空间文本数据的top-k融合:为降低数据冗余,对数据进行top-k融合。传统方法不考虑空间文本数据的结合,为解决该问题,本文提出了一种基于空间文本签名的过滤验证算法框架,通过签名过滤不相关的数据对。接着发现签名的访问顺序对算法效率有着巨大的影响,于是提出了一种最佳优先算法,以签名上界从大到小的顺序逐一访问签名。这种方式能够快速地找到top-k结果。此外论文优化了空间文本签名,提出了扩展的空间文本签名进一步加强了算法的过滤能力。(3)空间文本数据的推送:为满足用户不同的推送需求,本文提出并研究了参数化的空间文本信息推送问题。为解决该问题,论文提出了一种空间前缀以及对应的过滤验证算法。又结合经典的空间层次索引结构提出了区域前缀,区域前缀能有效减少前缀大小并支持区域过滤。在此基础上结合多关键词过滤技术提出了空间文本前缀,进一步提升了算法的过滤能力。
[Abstract]:With the popularity of mobile devices such as smart phones and the rapid development of mobile Internet, geographically based services have been widely concerned and applied. These services produce a large amount of spatial text data, which not only contain spatial location, but also have relevant text information. Whether we can make better use of these data to facilitate our daily life, there are two factors worth considering in particular: first, data quality, high quality data can improve the user experience; Second, the way users get information, users need efficient and convenient access to data of interest. This paper focuses on these two aspects: on the one hand, optimize the quality of spatial text data, including improving the accuracy of data, reducing data redundancy; On the other hand, how to deal with the needs of different users and efficiently push spatial text data to users. The contents and contributions of this paper are as follows: (1) Spatial text data purification based on crowdsourcing: in order to ensure the correctness of the data, crowdsourcing method is used to help filter the correct keywords in the data. This paper presents a task execution framework based on crowdsourcing. On the one hand, the spatial text data is published on the crowdsourcing platform as a task and the workers' answers are collected. In order to select the correct keywords according to the workers' answers and combine the factors such as workers' quality, an effective inference model is constructed. On the other hand, in order to further improve the accuracy of inference, the crowdsourcing task assignment algorithm which can maximize the accuracy of inference is studied. (2) top-k fusion of spatial text data: in order to reduce data redundancy, the data is fused by top-k. The traditional method does not consider the combination of spatial text data. In order to solve this problem, this paper proposes a filtering algorithm framework based on spatial text signature, which filters irrelevant data pairs by signature. Then it is found that the access order of the signature has a great influence on the efficiency of the algorithm, so an optimal priority algorithm is proposed to access the signature one by one with the upper bound from large to small. This way you can quickly find top-k results. In addition, the paper optimizes the spatial text signature, and proposes an extended spatial text signature to further enhance the filtering ability of the algorithm. (3) push the spatial text data: to meet the user's different push requirements, This paper presents and studies the parameterized spatial text information push problem. In order to solve this problem, a spatial prefix and a corresponding filtering algorithm are proposed. Based on the classical spatial hierarchical index structure, a region prefix is proposed, which can effectively reduce the prefix size and support region filtering. On this basis, the spatial text prefixes are proposed in combination with multi-keyword filtering technology, which further improves the filtering ability of the algorithm.
【学位授予单位】:清华大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 陈敏,汤晓安;在Microsoft Access中引入文本文件[J];微型电脑应用;1995年02期

2 李盛瑜;何文;;一种对聊天文本进行特征选取的方法研究[J];计算机科学;2007年05期

3 蒋志方;祝翠玲;吴强;;一个对不带类别标记文本进行分类的方法[J];计算机工程;2007年12期

4 赵钢;;从复杂文本中导入数据的方法[J];中国审计;2007年18期

5 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期

6 李建中,杨艳,张艳秋;并行文本管理原型系统PDoc的功能与总体框架[J];哈尔滨工业大学学报;2004年09期

7 覃晓;元昌安;彭昱忠;丁超;;基于基因表达式编程的Web文本分类研究[J];网络安全技术与应用;2009年03期

8 谌志群;;文本趋势挖掘综述[J];情报科学;2010年02期

9 王亚民;刘洋;;含附件文本的分类算法研究[J];情报杂志;2012年08期

10 江伟;潘昊;;基于优化的多核学习方法的Web文本分类的研究[J];计算机技术与发展;2013年10期

相关会议论文 前10条

1 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年

2 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年

3 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

5 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年

7 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

8 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

9 劳锦明;韦岗;;文本压缩技术研究的新进展[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年

10 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

相关重要报纸文章 前1条

1 戴洪玲;向Excel中快速输入相同文本[N];中国电脑教育报;2004年

相关博士学位论文 前10条

1 宋歌;基于聚类森林的文本流分类方法研究[D];哈尔滨工业大学;2014年

2 韩开旭;基于支持向量机的文本情感分析研究[D];东北石油大学;2014年

3 郑立洲;短文本信息抽取若干技术研究[D];中国科学技术大学;2016年

4 韩磊;汉语句义结构模型分析及其文本表示方法研究[D];北京理工大学;2016年

5 刘林;面向论坛文本的大学生情绪识别研究[D];华中师范大学;2016年

6 张博宇;基于局部特征的场景文本分析方法研究[D];哈尔滨工业大学;2015年

7 胡卉芪;空间文本数据的量质融合与推送[D];清华大学;2016年

8 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年

9 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年

10 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年

相关硕士学位论文 前10条

1 王轶霞;基于半监督递归自编码的情感分类研究[D];内蒙古大学;2015年

2 金传鑫;气象文本分类特征选择方法及其在MapReduce上的实现[D];南京信息工程大学;2015年

3 李少卿;不良文本及其变体信息的检测过滤技术研究[D];复旦大学;2014年

4 董秦涛;基于文本的个人情感状态分析研究[D];兰州大学;2015年

5 钟文波;搜索引擎中关键词分类方法评估及推荐应用[D];华南理工大学;2015年

6 黄晨;基于新词识别和时间跨度的微博热点研究[D];上海交通大学;2015年

7 陈红阳;中文微博话题发现技术研究[D];重庆理工大学;2015年

8 王s,

本文编号:2415054


资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/2415054.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户934a0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com