基于主题的数据API检索平台关键技术的研究与实现
本文选题:互联网文档数据 切入点:数据API 出处:《浙江大学》2017年硕士论文 论文类型:学位论文
【摘要】:在当前的互联网时代,存在着数据增长迅速,然而信息庞杂,用户想要从海量数据中搜索有用的信息费时费力的问题。用户需要的是更详细、细分的信息,针对这种情况,本文提出了一种基于主题的数据API检索平台。本文设计的分布式、可扩展的基于主题的数据API检索平台,首先将海量的互联网信息采集到子系统中,然后对数据进行分类,对每一类的数据通过检索的方式提供给用户,用户通过选取自己感兴趣的信息来消费平台中的数据。为了提供这样一个数据API检索平台,首先是能够将大量的网页抓取下来,并且需要此功能支持水平扩展和稳定性。此外为了减少人工成本,又能有效的提取网页中的信息,本文提出了半自动化的基于模板的网页信息提取方法。面对海量的互联网文档数据,需要提供一种合理的方式对数据进行分类,以便用户有针对性的选择对自己有用的数据。为此,本文设计了基于主题的数据分类和检索系统。通过基于LDA主题模型来推断文档中的主题分布,然后根据主题分布建立相应的API主题和相应的API-Key。考虑到API主题及对应的API-Key数据量很大,所以需要对这些API主题提供检索方式,通过基于相似度的方式来对检索出来的API主题进行排序,最后将API主题及其对应的结果数据集返回给用户。本平台提供多方面的数据,通过简单的API接口提供给用户,不论是科研还是商业用户,都可以消费该平台中的数据。最后通过实验分析,证明本平台具有一定的科研和商业价值。
[Abstract]:In the current era of the Internet, there is a rapid growth of data, but the quantity of information, the user wants to search data from the mass of useful information and time-consuming problem. Users need more detailed information, segmentation, in view of this situation, this paper proposes a retrieval platform theme data based on API. This paper designed the distributed, scalable data retrieval platform based on the API theme, the massive Internet information collection subsystem, and then classify the data provided to the user for each type of data through the retrieval, user consumption platform using the data in the selected information of interest to them. In order to provide such a API data retrieval platform, the first is to a large number of web crawling down, and this supports horizontal expansion and stability. In order to reduce labor costs, but also can effectively. Take the information in the web page, proposed web information extraction method based on template semi automation. The face of the Internet document data, the need to provide a reasonable way to classify the data, so that users targeted selection of useful data on their own. Therefore, this paper designs the data classification and retrieval based on based on the LDA system. Through the topic model to infer the topic distribution of the document, and then establish the corresponding distribution according to the theme of API themes and corresponding API-Key. considering the amount of data and the corresponding API-Key API theme is very big, so need to provide the retrieval of these API theme, through the similarity based method to sort the retrieved API theme finally, the API theme and the corresponding results are returned to the user. The data set provides many data of the platform, available to the user through a simple API interface, Whether it is scientific or business users, the platform can consume data. Finally, through experimental analysis, it proved that this platform has a certain scientific and commercial value.
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 高俊波;安博文;王晓峰;;在线论坛中潜在影响力主题的发现研究[J];计算机应用;2008年01期
2 吴玲达,谢毓湘,栾悉道,肖鹏;互联网多媒体主题信息自动收集与处理系统的研制[J];计算机应用研究;2005年05期
3 蒋凡,高俊波,张敏,王煦法;BBS中主题发现原型系统的设计与实现[J];计算机工程与应用;2005年31期
4 周亦鹏;杜军平;;基于时空情境模型的主题跟踪[J];华南理工大学学报(自然科学版);2012年08期
5 陈雄;都云程;李渝勤;施水才;;基于页面结构分析的论坛主题信息定位方法研究[J];微计算机信息;2010年27期
6 何利益;陆国锋;罗鹏;;动态新闻主题信息推荐系统设计[J];指挥信息系统与技术;2013年04期
7 关慧芬;师军;;基于本体的主题爬虫技术研究[J];计算机仿真;2009年10期
8 张宇;宋巍;刘挺;李生;;基于URL主题的查询分类方法[J];计算机研究与发展;2012年06期
9 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期
10 吕聚旺;都云程;王弘蔚;施水才;;基于新型主题信息量化方法的Web主题信息提取研究[J];现代图书情报技术;2008年12期
相关会议论文 前6条
1 吴晨;宋丹;薛德军;师庆辉;;科技主题识别及表示[A];第五届全国信息检索学术会议论文集[C];2009年
2 熊方;王晓宇;郑骏;周傲英;;ITED:一种基于链接的主题提取和主题发现系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
6 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
相关博士学位论文 前5条
1 杨肖;基于主题的互联网信息抓取研究[D];浙江大学;2014年
2 赵一鸣;基于多维尺度分析的潜在主题可视化研究[D];华中师范大学;2013年
3 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
4 薛利;面向证券应用的WEB主题观点挖掘若干关键问题研究[D];复旦大学;2013年
5 周厚奎;概率主题模型的研究及其在多媒体主题发现和演化中的应用[D];浙江大学;2017年
相关硕士学位论文 前10条
1 解琰;主题优化过滤方法研究与应用[D];大连海事大学;2015年
2 杨春艳;基于语义和引用加权的文献主题提取研究[D];浙江大学;2015年
3 卢洋;基于主题模型的混合推荐算法研究[D];电子科技大学;2014年
4 黄志;基于维基歧义页的搜索结果聚类方法研究[D];北京理工大学;2015年
5 王亮;基于主题模型的文本挖掘的研究[D];大连理工大学;2015年
6 任昱凤;基于Hadoop的分布式主题爬虫及其实现[D];陕西师范大学;2015年
7 韩琳;基于贝叶斯主题爬虫的研究与实现[D];北京工业大学;2015年
8 黎楠;面向专利的主题挖掘技术研究及应用[D];北京工业大学;2015年
9 刘学江;超大规模社交网络中基于结构与主题的社团挖掘[D];电子科技大学;2015年
10 黄文强;安卓技术信息的主题爬虫技术研究与实现[D];东南大学;2015年
,本文编号:1625603
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1625603.html