当前位置:主页 > 管理论文 > 移动网络论文 >


发布时间:2018-08-26 07:01
【摘要】:web数据含有用户网络访问模式的丰富信息,挖掘web数据对于用户的网络行为分析具有重大意义。本文研究的web数据来源于两部分,一是国内某运营商提供的基于DPI包检测技术获得的网络流数据,主要是用户web日志数据;二是利用网络爬虫程序抓取的网页数据。基于这两种web数据,分析了电商和汽车网站用户的网络行为。(1)电商行业的用户网络行为分析。主要以京东、天猫、国美、苏宁这四个电商网站的用户为研究对象,利用MapReduce基本统计分析方法,分析这四个电商网站的用户对具体商品的访问行为,主要包括对商品的浏览、搜索和加购物车等行为。采用BulkLoad工具将电商用户行为数据批量导入HBase表中,解决了数据逐条导入而频繁IO、GC操作造成的系统响应变慢、节点超时退出等问题,增加了集群系统的稳定性、提高了数据入库效率。最后通过编写HBase数据查询接口,对电商用户的行为数据进行定制化查询,即可根据指定条件对用户行为集中查询和分析。(2)分析汽车行业的用户网络行为。主要以长安福特汽车品牌下的锐界车系为研究样例,使用AprioriAll序列模式挖掘算法得到用户访问汽车网站的频繁序列集,分析对锐界车系感兴趣的用户倾向在哪些汽车网站(排名靠前的15个汽车网站)上获取锐界相关信息,以及对这些网站的访问先后次序又是怎样的;再利用MapReduce统计特性和RESTful API技术对用户的站点访问情况以及兴趣标签等信息进行可视化分析。其中,用到正则表达式提取汽车用户数据,通过RegexBuddy工具调试和优化正则表达式,并结合数据的Hash存储特性,使得数据提取程序的时间复杂度由O(N)降为O(1),提高了程序运行效率。本文的研究结果在一定意义上,能够给特定商品和特定汽车的网络经销商或者广告商在用户群体定位、广告精准投放或交叉推送等方面提供参考意见。
[Abstract]:Web data contains abundant information of user's network access pattern. Mining web data is of great significance to user's network behavior analysis. The web data in this paper come from two parts, one is the network stream data based on DPI packet detection technology provided by a domestic operator, mainly the user web log data, and the other is the web page data captured by the web crawler program. Based on these two kinds of web data, the network behavior of the users of e-commerce and automotive websites is analyzed. (1) the network behavior of users in e-commerce industry is analyzed. Mainly taking the users of four ecommerce websites JingDong, Tmall, Gome and Su Ning as research objects, and using the basic statistical analysis method of MapReduce, to analyze the visit behavior of the users of these four ecommerce websites to specific commodities, mainly including the browsing of commodities. Search and shopping cart, etc. The BulkLoad tool is used to import the user behavior data into the HBase table in batches, which solves the problems such as the slow response caused by the frequent IO,GC operation and the node time-out, which increases the stability of the cluster system. The efficiency of data storage is improved. Finally, through compiling HBase data query interface, the behavior data of e-commerce users can be customized queried and analyzed according to the specified conditions. (2) analyzing the behavior of users in automobile industry. Taking the sharp boundary vehicle system under the Changan Ford brand as the research example, the frequent sequence set of users visiting the automobile website is obtained by using AprioriAll sequence pattern mining algorithm. Analyze which automobile websites (the top 15 auto websites) that interested users tend to obtain relevant information, and what is the order of visits to these websites; Then, the user's site access and interest tags are analyzed visually by using MapReduce statistics and RESTful API technology. Among them, the regular expression is used to extract the automobile user data, the regular expression is debugged and optimized by RegexBuddy tool, and combined with the Hash storage characteristic of the data, the time complexity of the data extraction program is reduced from O (N) to O (1), and the running efficiency of the program is improved. To a certain extent, the results of this paper can provide reference to the network dealers or advertisers of specific commodities and vehicles in terms of user group positioning, accurate advertising delivery or cross-push, and so on.


相关期刊论文 前10条

1 肖凯;;用户网络简化发展的构想与实现[J];数字通信世界;2008年03期

2 唐玉麟,王雄;光纤用户网络发展评述[J];光通信技术;1991年Z1期

3 秦宾;个人用户网络的安全隐患与防范[J];现代通信;2001年09期

4 王景欣;袁坚;耿军伟;冯振明;;移动互联网基于用户网络结构的信息过滤机制[J];计算机科学;2011年S1期

5 胡刚,曹晓敏,沈雁;用户网络行为习惯模型[J];指挥技术学院学报;2000年03期

6 周德仿;用户网络行为与个性化服务研究[J];电机电器技术;2004年02期

7 杨振;;实达——沧海服务器[J];电子测试;2001年02期

8 刘国刚;由单用户版上升为多用户网络版应解决的几个主要问题[J];电子技术应用;1997年05期

9 姜永;胡博;陈山枝;;异构无线网络用户网络关联优化:一种基于群体博弈的方法[J];计算机学报;2012年06期

10 陈晓玲;;关于提升宽带用户网络质量满意度的策略探析[J];电子技术与软件工程;2013年21期

相关会议论文 前10条

1 刘正涛;毛宇光;应毅;;基于Web服务的分布式Web应用框架研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年

2 戴琦;;Web上的数据挖掘[A];全国计算机网络应用年会论文集(2001)[C];2001年

3 王卫;;基于Web的数据库应用[A];第十八届中国(天津)’2004IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2004年

4 张默;廖湖声;杜金莲;;基于Web服务的开放式地理信息系统的研究[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年

5 郑菊艳;续爱民;;基于WEB模式的科研项目管理系统的设计与实现[A];第十四届中国科协年会第5分会场:绿色船舶与海洋装备创新发展及产业化论坛论文集[C];2012年

6 郑菊艳;续爱民;;基于WEB模式的科研项目管理系统的设计与实现[A];2012年MIS/S&A学术交流会议论文集[C];2012年

7 李勤;;基于WEB的计算机模拟病例考试系统在全科医师培训实践能力测试中应用研究[A];2012年浙江省全科医学学术年会论文汇编[C];2012年

8 黄海林;孙向阳;;基于Web的大学物理试题管理系统的设计[A];湖北省物理学会、武汉物理学会成立70周年庆典暨2002年学术年会论文集[C];2002年

9 于莉莉;张毅;;基于Web的人力资源管理系统研究与设计[A];2008全国制造业信息化标准化论坛论文集[C];2008年

10 李中华;;企业Web应用安全威胁与防护[A];创新·融合·发展——创新型煤炭企业发展与信息化高峰论坛论文集[C];2010年

相关重要报纸文章 前10条

1 本报记者 刘继安;准备好了吗?WEB教师[N];中国教育报;2001年

2 张承东;Web智能考核广告[N];网络世界;2009年

3 本报记者 张楠;中国用户网络防护措施依旧不够[N];中国计算机报;2012年

4 科讯;WEB教师——一个全新职业的透析[N];科技日报;2001年

5 王雅丽;博客社区齐上阵 银行借Web 2.0拉拢未来客户[N];中国计算机报;2008年

6 本报记者 黄智军;Web应用呼唤新型安全系统[N];计算机世界;2009年

7 李鹏;不只要求速度[N];中国计算机报;2004年

8 居易;WEB教师热门起来[N];组织人事报;2001年

9 本报记者 赵晓涛;四问“Web防御与云安全”[N];网络世界;2008年

10 本报记者 徐恒;手机浏览器:竞争不断加剧 Web大势所趋[N];中国电子报;2009年

相关博士学位论文 前10条

1 李世党;面向B4G/5G无线网络的干扰对齐与干扰管理技术研究[D];东南大学;2016年

2 万志远;Web应用程序漏洞检测关键技术研究[D];浙江大学;2014年

3 黄治虎;基于网页信息和图像特征的Web图像检索研究[D];重庆大学;2015年

4 张璞;Web评论文本情感分类方法研究[D];重庆大学;2015年

5 刘维东;Web短文本知识关联模型及其语义连贯计算方法[D];上海大学;2016年

6 孙慧峰;基于协同过滤的个性化Web推荐[D];北京邮电大学;2012年

7 何儒汉;Web图像的多模融合检索研究[D];华中科技大学;2007年

8 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年

9 龙慧云;基于进程代数的Web服务数据和组合的形式化方法研究[D];贵州大学;2009年

10 孙涛;面向市场情报分析的Web实体事件融合问题研究[D];山东大学;2014年

相关硕士学位论文 前10条

1 彭员英;基于web数据的特定行业用户网络行为分析[D];北京邮电大学;2017年

2 王晓月;基于WiFi用户网络行为的信息推送系统设计[D];大连海事大学;2015年

3 陶源;基于觅食理论的学术用户网络信息查寻策略研究[D];西南大学;2014年

4 解索非;基于复杂网络理论的微信用户网络特性研究[D];重庆大学;2016年

5 赵思;公交车载WiFi用户网络行为分析[D];华中科技大学;2016年

6 马丽娇;用户网络行为分析系统的设计与实现[D];北京邮电大学;2014年

7 王一凡;协作多用户网络的传输方案设计和优化[D];北京邮电大学;2017年

8 胡静;基于3G核心网数据的用户网络行为识别技术研究[D];电子科技大学;2017年

9 李林蓉;基于Restful和OSGI的Web应用转换容器的研究与实现[D];华南理工大学;2015年

10 陈彬彬;基于QoS随机性的Web服务质量偏离监测方法研究与实现[D];昆明理工大学;2015年




Copyright(c)文论论文网All Rights Reserved | 网站地图 |
