当前位置:主页 > 科技论文 > 数学论文 >

基于用户分类的隐马尔可夫WEB预取模型及应用研究

发布时间:2018-09-03 18:49
【摘要】:Web预取技术是在分析用户访问的相关数据或行为的基础上,主动预测其下一步可能浏览的页面,通过隐性的请求加载,从而预先取得并存放在缓存中,以备用户访问,从而减少用户访问时因为网络或服务器等各种可能问题造成的时延。基于Web访问模式特性及预取与缓存的基本理论,本文在前人的基础上充分发掘Web访问过程中的规律和特性,采用概率统计、数学分析等方法,改进了包括日志处理,特征词提取,资源预测及资源缓存与替换等算法,建立了一套预取一体化框架。在预取一体化框架的研究中,主要工作包括:(1)在日志数据处理时对路径的补充工作提出了描点法,用以补充日志记录中的访问路径序列遗漏、缺失的信息,以还原一个完整合理的访问行为,该算法简单有效,易于实现;(2)在特征词处理时对传统的特征词提取算法TF-IDF(Term Frequency Inverse Document Frequency)进行了改进,提出了TF-IDF-CD(Term Frequency Inverse Document Frequency-Categorical Description)算法,该算法解决了传统特征词提取过程中对于类别区分能力较弱的问题;(3)资源预测过程是在原马尔可夫预取模型的基础上对用户进行分类,同时对用户访问路径从语义的角度进行分析,提取用户信息需求,从而形成了基于用户分类的隐马尔可夫预取模型,该算法将基于访问路径和基于语义两类算法思想相结合,以达到更好的预测准确率。(4)在资源缓存与替换中,我们在GDS(Greedy-Dual-Size)和GDSF(Greedy-Dual-Size-Frequency)算法的基础上,引入时间频度概念,提出了GDSF-T(Greedy-Dual-Size-Frequency-Time)算法,该算法弥补了时间因素对访问频度的影响。最后,将该框架应用于一个基于微信端的农产品产销平台中,以针对此类移动平台特有的带宽低、延迟高、间歇性连通等网络特点,达到降低访问时延、优化系统性能的目的,并通过实验对系统引入预取框架前后对系统性能的影响进行了测试和分析,测试结果显示各项指标均良好。
[Abstract]:Web prefetching technology is based on the analysis of relevant data or behaviors accessed by the user, and actively predicts the pages it may visit next, and loads the pages through hidden requests, which can be obtained in advance and stored in the cache for the user to visit. Thus, the delay caused by various possible problems such as network or server is reduced when the user accesses. Based on the characteristics of Web access mode and the basic theory of prefetching and caching, this paper fully explores the rules and characteristics of Web access process on the basis of predecessors, and adopts the methods of probability statistics and mathematical analysis to improve the log processing. An integrated prefetching framework is established, such as feature extraction, resource prediction and resource cache and replacement. In the research of pre-fetching integrated framework, the main work includes: (1) in the process of log data processing, a new method is proposed to supplement the missing and missing information of access path sequence in log records. In order to restore a complete and reasonable access behavior, the algorithm is simple and effective and easy to implement. (2) the traditional feature word extraction algorithm TF-IDF (Term Frequency / Inverse Document Frequency) is improved, and the TF-IDF-CD (Term Frequency Inverse Document Frequency-Categorical Description algorithm is proposed. The algorithm solves the problem of weak classification ability in the traditional feature extraction process. (3) the resource prediction process classifies users on the basis of the original Markov prefetching model. At the same time, the user access path is analyzed from the point of view of semantics, and user information requirements are extracted, and a hidden Markov prefetching model based on user classification is formed. The algorithm combines two kinds of algorithms based on access path and semantics. In order to achieve better prediction accuracy. (4) in resource cache and replacement, based on GDS (Greedy-Dual-Size) and GDSF (Greedy-Dual-Size-Frequency) algorithm, we introduce the concept of time frequency, and propose GDSF-T (Greedy-Dual-Size-Frequency-Time) algorithm, which makes up for the influence of time factor on access frequency. Finally, the framework is applied to a production and marketing platform of agricultural products based on WeChat, in order to reduce the access delay and optimize the system performance in view of the unique characteristics of the mobile platform, such as low bandwidth, high delay, intermittent connectivity and so on. The performance of the system is tested and analyzed before and after the introduction of the prefetching frame. The test results show that the performance of the system is good.
【学位授予单位】:西安理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.0;O211.62

【相似文献】

相关期刊论文 前10条

1 任昌荣,刘小红;预取机制在WebGIS中的应用[J];现代计算机(专业版);2005年04期

2 班志杰;金瑜;;利用LMS规则的预取策略[J];武汉大学学报(信息科学版);2009年08期

3 邹丹;;基于Web服务的医院信息管理系统的设计与实现[J];大众科技;2007年06期

4 彭玉华;;基于Web的学生信息管理系统的设计与实现[J];民营科技;2010年09期

5 李陶深,刘波,杨柳,严毅;基于Web的多媒体档案管理信息系统设计与实现[J];广西科学院学报;2000年S1期

6 侯剑,李斌,潘文林;WEB网络考试系统实现技术研究[J];云南民族大学学报(自然科学版);2004年02期

7 陈焕东,吴淑雷;基于Web的数据挖掘技术浅析[J];海南师范学院学报(自然科学版);2004年03期

8 蔡猷花;张岐山;;Web使用模式挖掘及其在电子商务领域的应用[J];科技管理研究;2005年11期

9 黄勇;基于Web应用的网络考试系统[J];实验科学与技术;2005年01期

10 刘学党;伊尧国;;基于WEB的城市三维地理信息系统构建方法研究[J];天津城市建设学院学报;2006年01期

相关会议论文 前10条

1 欧国东;潘国腾;罗莉;;两阶段数据预取线程评估方法[A];第十六届计算机工程与工艺年会暨第二届微处理器技术论坛论文集[C];2012年

2 刘正涛;毛宇光;应毅;;基于Web服务的分布式Web应用框架研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年

3 戴琦;;Web上的数据挖掘[A];全国计算机网络应用年会论文集(2001)[C];2001年

4 王卫;;基于Web的数据库应用[A];第十八届中国(天津)’2004IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2004年

5 张默;廖湖声;杜金莲;;基于Web服务的开放式地理信息系统的研究[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年

6 郑菊艳;续爱民;;基于WEB模式的科研项目管理系统的设计与实现[A];第十四届中国科协年会第5分会场:绿色船舶与海洋装备创新发展及产业化论坛论文集[C];2012年

7 郑菊艳;续爱民;;基于WEB模式的科研项目管理系统的设计与实现[A];2012年MIS/S&A学术交流会议论文集[C];2012年

8 李勤;;基于WEB的计算机模拟病例考试系统在全科医师培训实践能力测试中应用研究[A];2012年浙江省全科医学学术年会论文汇编[C];2012年

9 黄海林;孙向阳;;基于Web的大学物理试题管理系统的设计[A];湖北省物理学会、武汉物理学会成立70周年庆典暨2002年学术年会论文集[C];2002年

10 于莉莉;张毅;;基于Web的人力资源管理系统研究与设计[A];2008全国制造业信息化标准化论坛论文集[C];2008年

相关重要报纸文章 前10条

1 本报记者 刘继安;准备好了吗?WEB教师[N];中国教育报;2001年

2 张承东;Web智能考核广告[N];网络世界;2009年

3 科讯;WEB教师——一个全新职业的透析[N];科技日报;2001年

4 王雅丽;博客社区齐上阵 银行借Web 2.0拉拢未来客户[N];中国计算机报;2008年

5 本报记者 黄智军;Web应用呼唤新型安全系统[N];计算机世界;2009年

6 居易;WEB教师热门起来[N];组织人事报;2001年

7 本报记者 赵晓涛;四问“Web防御与云安全”[N];网络世界;2008年

8 本报记者 徐恒;手机浏览器:竞争不断加剧 Web大势所趋[N];中国电子报;2009年

9 电脑商报记者 张戈;Web应用安全正当时[N];电脑商报;2010年

10 李晨;Web应用安全应贯穿生命周期[N];人民邮电;2009年

相关博士学位论文 前10条

1 万志远;Web应用程序漏洞检测关键技术研究[D];浙江大学;2014年

2 黄治虎;基于网页信息和图像特征的Web图像检索研究[D];重庆大学;2015年

3 张璞;Web评论文本情感分类方法研究[D];重庆大学;2015年

4 刘维东;Web短文本知识关联模型及其语义连贯计算方法[D];上海大学;2016年

5 孙慧峰;基于协同过滤的个性化Web推荐[D];北京邮电大学;2012年

6 何儒汉;Web图像的多模融合检索研究[D];华中科技大学;2007年

7 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年

8 龙慧云;基于进程代数的Web服务数据和组合的形式化方法研究[D];贵州大学;2009年

9 欧国东;基于线程的数据预取技术研究[D];国防科学技术大学;2011年

10 孙涛;面向市场情报分析的Web实体事件融合问题研究[D];山东大学;2014年

相关硕士学位论文 前10条

1 王钒霖;基于用户分类的隐马尔可夫WEB预取模型及应用研究[D];西安理工大学;2017年

2 姚南野;基于关联分析的移动评教数据预取与缓存研究[D];华中师范大学;2015年

3 朱凌宇;基于数据访问模式挖掘的磁盘数据预取技术研究[D];西南大学;2015年

4 王垒;全球剖分编码海量瓦片文件的有序存储和预取技术研究[D];国防科学技术大学;2013年

5 赵祥;基于应用程序访存模式的硬件自适应预取技术的研究[D];国防科学技术大学;2014年

6 徐轩绚;面向社交网络的流媒体预取技术研究[D];南京大学;2014年

7 洪伟;Web缓存与预取系统的设计与实现[D];华中科技大学;2014年

8 刘平;基于“YHFT-XDSP”XMC接口的预取结构的设计与实现[D];国防科学技术大学;2014年

9 汤明星;面向MapReduce数据本地化的调度方法研究[D];国防科学技术大学;2014年

10 王艳群;面向纠删码存储集群的离线归档优化研究[D];华中科技大学;2016年



本文编号:2220854

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/yysx/2220854.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e75d4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com