基于元信息的云盘资源检索结果去重
本文关键词:基于元信息的云盘资源检索结果去重 出处:《山东大学学报(理学版)》2016年07期 论文类型:期刊论文
【摘要】:区别于传统计算网页文本相似度的去重方法,以多媒体数据文件为主的云盘资源仅可利用相当有限的元信息进行检索结果去重。针对这一问题,以搭建的面向云盘资源数据的搜索引擎系统为基础,通过对云盘资源元信息特性的分析,发现除名称之外,资源文件后缀名、占用空间大小、资源的用户归属是判定重复记录的有效特征。在此基础上,给出了处理上述特征的归一化方法,进而使用无监督方法进行去重。实验结果表明,该方法能够有效对云盘资源检索结果去重。
[Abstract]:Different from the traditional method to calculate the page text similarity, using meta information of search results is limited to only by the multimedia data file based cloud resources. To solve this problem, the search engine system resources to build the cloud oriented data as the foundation, through the analysis of cloud disk resource meta information characteristics the discovery, in addition to the name, the resource file suffix, space size, resource users belonging is effective in identifying the character of duplicate records. On this basis, given the normalization methods for the treatment of the above characteristics, and then use unsupervised method to weight. The experimental results show that this method can effectively for cloud resource retrieval the results of weight.
【作者单位】: 北京大学网络与信息系统研究所;
【基金】:国家重点基础研究发展计划(973计划)项目(2014CB340400) 国家自然科学基金资助项目(61272340,61472013)
【分类号】:TP333
【正文快照】:
【参考文献】
相关期刊论文 前9条
1 闫俊伢;;基于MD5的网页去重算法的设计与研究[J];实验室研究与探索;2013年12期
2 徐朝辉;赵淑梅;闫付亮;秦杰;;一种基于特征向量的改进DSC网页去重算法[J];科学技术与工程;2013年08期
3 熊忠阳;牙漫;张玉芳;;基于网页正文结构和特征串的相似网页去重算法[J];计算机应用;2013年02期
4 葛晓玢;刘杰;崔健;;基于版权信息的新闻网页去重策略研究[J];电脑知识与技术;2012年26期
5 曹玉娟;牛振东;赵X;彭学平;;基于概念和语义网络的近似网页检测算法[J];软件学报;2011年08期
6 张玉连;王莎莎;宋桂江;;基于元搜索的网页去重算法[J];燕山大学学报;2011年02期
7 黄仁;冯胜;杨吉云;刘宇;敖民;;基于正文结构和长句提取的网页去重算法[J];计算机应用研究;2010年07期
8 王开军;李健;张军英;过立新;;聚类分析中类数估计方法的实验比较[J];计算机工程;2008年09期
9 陈基漓;牛秦洲;;基于特征码的网页去重[J];微计算机信息;2006年09期
【共引文献】
相关期刊论文 前10条
1 丁少倩;林涛;翟学;徐遐龄;毕如玉;秦晓菁;;基于短路容量的含大规模新能源接入的电网状态脆弱性评估方法研究[J];电力系统保护与控制;2016年13期
2 薛剑;吕立;孙咏;王丹妮;;应用语义相似的海量网页文本去重策略研究[J];小型微型计算机系统;2016年06期
3 刘驰;闫宏飞;;基于元信息的云盘资源检索结果去重[J];山东大学学报(理学版);2016年07期
4 杨永侠;施彦如;孙婷;孟丹;卜春燕;王旭;;基于空间聚类的西藏耕地后备资源开发组合模型[J];农业机械学报;2016年04期
5 于鹏;杨仁刚;;基于欧氏距离最佳K均值聚类的超级电容组故障在线鉴别方法[J];农业工程学报;2016年02期
6 孙宏;景崇毅;黄赶祥;王晓东;;基于机型等级的航线市场细分方法研究[J];中国民航飞行学院学报;2016年01期
7 郭艳卿;赵锐;孔祥维;付海燕;蒋金平;;基于事件要素加权的新闻摘要提取方法[J];计算机科学;2016年01期
8 贲兴龙;贾大文;袁林;;一种面向大规模网页去重的三层分布式架构[J];计算机与数字工程;2015年10期
9 吴林静;刘清堂;黄景修;刘?;毛刚;;面向e-Learning的概念知识元表征模型研究[J];电化教育研究;2015年04期
10 陈婧;;基于语义网的软件工程数据查询处理技术[J];电子技术与软件工程;2015年04期
【二级参考文献】
相关期刊论文 前10条
1 张小娣;宋余庆;;基于网页正文逻辑段落和长句提取的网页去重算法[J];图书情报研究;2012年02期
2 秦杰;谢蕙;王春云;;基于SLCS的元搜索去重技术研究[J];图书情报工作;2010年15期
3 黄仁;冯胜;杨吉云;刘宇;敖民;;基于正文结构和长句提取的网页去重算法[J];计算机应用研究;2010年07期
4 梁叶;梁京章;阳红;叶云;;近似镜像检测算法在文本消重中的应用研究[J];广西大学学报(自然科学版);2010年02期
5 张素智;樊得强;;网页去重方法研究及算法设计[J];郑州轻工业学院学报(自然科学版);2010年02期
6 王祖析;;基于网页内容的网页消重高效检测算法研究[J];佳木斯大学学报(自然科学版);2010年01期
7 周小平;黄家裕;刘连芳;梁一平;申文明;;基于网页正文主题和摘要的网页去重算法[J];广西科学院学报;2009年04期
8 刘四维;章轶;夏勇明;钱松荣;;基于HTML标记和长句提取的网页去重算法[J];微型电脑应用;2009年08期
9 施聪莺;徐朝军;杨晓江;;TFIDF算法研究综述[J];计算机应用;2009年S1期
10 樊勇;郑家恒;;网页去重方法研究[J];计算机工程与应用;2009年12期
【相似文献】
相关期刊论文 前10条
1 亦云;;我的云盘 资料丢失为哪般[J];电脑爱好者;2014年05期
2 王昌红;;网络云盘升级免费进行时[J];电脑知识与技术(经验技巧);2014年07期
3 ;资讯[J];青年记者;2012年09期
4 白璐;;云盘大战 你该投靠谁[J];电脑爱好者;2013年18期
5 ;360随身wifi将添"云U盘"功能[J];计算机光盘软件与应用;2013年16期
6 曹春华;;为云盘加锁 各有各招[J];电脑爱好者;2013年21期
7 刘英;;“好”网相伴 用好云盘学问大[J];电脑爱好者;2013年22期
8 李新宇;;网络云盘介绍——以360云盘和百度云为例[J];无线互联科技;2014年01期
9 李军;劳凤丹;邹仁明;;校园网云盘系统构建研究[J];通信学报;2013年S2期
10 张文雯;;360云盘三招妙用[J];电脑爱好者;2014年04期
相关重要报纸文章 前7条
1 陈平 本报记者 袁天志;六枝云盘工商所“三结合”助推个私经济发展[N];贵州日报;2011年
2 邹兰邋冷文浩 钟源;云盘山上的希望[N];凉山日报(汉);2008年
3 本报记者 叶菁;国内云盘上演“抢客”大战 免费离线下载成杀手锏[N];通信信息报;2013年
4 陈萍;云盘工商所 “四个到位”促“质量兴区”[N];六盘水日报;2010年
5 记者 史俊颖;利用优势发展特色农业 增加农民收入[N];四平日报;2014年
6 本报记者 王春波 李浩然 通讯员 张颖;云盘山养猪大户的“致富经”[N];楚雄日报(汉);2011年
7 陈萍;云盘工商所 净化社会文化市场[N];六盘水日报;2009年
相关硕士学位论文 前2条
1 王帅;面向多云盘的终端透明加密存储系统研究与实现[D];解放军信息工程大学;2015年
2 李慧;基于MooseFS的移动云盘系统的研究与设计[D];大连理工大学;2014年
,本文编号:1418267
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1418267.html