大规模用户在线行为数据分析
本文选题:用户行为分析 + 用户属性 ; 参考:《上海交通大学》2013年硕士论文
【摘要】:最近十年来全世界网民的数量呈现快速增长的趋势,,截止2011年1月全世界网民的数量已经超过了20亿。在线用户规模的急剧扩大使得用户在线行为分析在很多研究领域的意义显得越来越重大,如在经济、学术以及社会事务等领域。其中,最具有商业价值要数用户在线商业意图(Online CommercialIntention)的挖掘。通过分析用户的在线行为来挖掘出用户个人兴趣及倾向,为有针对性的广告投放提供有力的依据,从而达到更好的广告推荐效果。 文中提出了一种检测用户商业意图的新方法架构,通过分析用户浏览过的网页信息,从中挖掘出用户个性化的购买倾向。借助于大型购物平台上搜索引擎的历史记录以及搜索结果页面上商品的点击分布情况,通过统计分析建立起搜索词与商品类目之间的关联——关键词词典。利用这一词典我们可以从用户浏览过的网页内容中抽取出一系列能够体现用户商业意图的关键词,关键词选取的标准包括关键词的TF、ICF、QF以及关键词本身的长度。每一个关键词根据关键词词典将被映射到一系列的商品类目,其中分值最高的几个商品类目将视为页面的商业意图检测结果。为了消除一些不相关类目对于用户商业意图结果的影响并使得OCI结果更加集中,类目的相似度模型被引入来修正OCI结果中的分值。用户每天的商业意图通过聚合其当天浏览过页面的OCI结果得到。为了体现出商业意图短暂、灵活多变的特点,我们提出了用户时间维度上的商业意图模型来更真实地体现出用户的实时商业意图变化。 为了评估所提出OCI检测方法的效果,在实验部分,通过制定统一的评测标准,评测人员对于随机抽取的1036个测试页面的商业意图结果进行了人工标注。从标注结果与系统检测结果的对比中可知,在检测商业意图存在的角度,系统判断的准确率达到了70%,召回率达到了将近90%;而从系统匹商业类目的角度来看,系统匹配商业类目的正确率达到了86%。通过后续的实验我们还发现,通过限制页面关键词的数量以及设定匹配类目最小阙值等方法可以有效地提升系统检测商业意图的整体效果。 作为最终的分析结果,系统以一系列商品类目的形式给出了用户在一段时间内的商业意图。根据商品类目在一段时间内的分值变化情况,可以推测出用户在这一段时间内购买某一类商品的倾向及对应程度。通过构建合适的用户购买行为模型,可以对目标用户进行有针对性的商品推荐。 借助于大规模分布式计算架构,文中所提到的OCI检测系统流程可以应用于大规模用户行为数据的分析。正在运营的系统每天可以处理十亿级别的用户浏览记录,用来分析得到几千万用户的具体商业意图,每个小时的数据处理量大约在150GB。
[Abstract]:The number of Internet users worldwide has been growing rapidly in the last ten years. By the end of January 2011, the number of Internet users in the world has exceeded 2 billion. The rapid expansion of online user scale makes the analysis of user online behavior more and more significant in many research fields, such as in the fields of economy, academic and social affairs. The most commercial value of the user online business intention (Online CommercialIntention) mining. Through the analysis of the user's online behavior to excavate the user's personal interests and tendencies, to provide a powerful basis for targeted advertising, so as to achieve better advertising recommendation effect.
In this paper, a new method to detect the user's commercial intention is proposed. By analyzing the information of the user's web pages, the user's personalized purchase tendency is excavated. By the historical record of the search engine on the large shopping platform and the point distribution of the goods on the search result page, the search is established by statistical analysis. A keyword dictionary. Using this dictionary, we can use this dictionary to extract a series of key words that can reflect the user's commercial intentions. The criteria for keyword selection include the TF, ICF, QF, and the length of the keyword itself. Each keyword is based on the key words. The dictionary will be mapped to a series of commodity categories, in which the highest number of items will be considered as the result of the business intent detection of the page. In order to eliminate the impact of some unrelated items on the user's commercial intent results and make the OCI results more centralized, the similarity model of the category is introduced to modify the value of the OCI results. In order to reflect the transient and flexible features of the business intention, the business intention of the user's daily business intention is obtained by aggregating the OCI results that have been viewed on the same day. In order to demonstrate the real real time business intention of the user, we propose a business intention model in the user time dimension.
In order to evaluate the effectiveness of the proposed OCI detection method, in the experimental part, the judges manually annotate the results of the commercial intent of 1036 random test pages by formulating a unified evaluation standard. The accuracy rate reached 70% and the recall rate reached nearly 90%. From the point of view of the system goods business category, the correct rate of the system matching business category reached 86%. through the follow-up experiment. We also found that the system detects can be effectively promoted by restricting the number of key words and setting the minimum threshold of the matching category. The overall effect of the purpose of the industry.
As a result of the final analysis, the system gives the user's commercial intent for a period of time in the form of a series of commodity categories. According to the changes in the value of the items within a period of time, the user can speculate on the tendency and corresponding degree of the user to purchase a certain category of goods during this period. As a model, targeted products can be recommended to target users.
With the aid of large-scale distributed computing architecture, the OCI detection system process mentioned in this paper can be applied to the analysis of large-scale user behavior data. The operating system can handle one billion levels of user browsing records every day to analyze the specific business intentions of tens of millions of users, and the amount of data processing per hour is about 1. 50GB.
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 Amir Hartman ,john Sifonis ,john kador ,亚飞;网络就绪化的四大要素之管理[J];电子商务世界;2002年01期
2 祁明,翟才忠;全球信息系统与安全产品评估准则的建立与发展[J];现代计算机;2001年10期
3 陈辉;郭科;郑文峰;;数字水印技术应用于遥感图像版权保护的评测标准研究[J];物探化探计算技术;2008年05期
4 任怡;吴庆波;戴华东;廖湘科;杨沙洲;;通用操作系统对比评测标准研究[J];计算机科学;2011年11期
5 华崇良;影音器材性能客观评测标准说明之二——音箱篇[J];实用影音技术;2002年04期
6 钱俊 ,许超 ,史美林;入侵检测系统评测研究进展(上)[J];计算机安全;2005年08期
7 文益民;李健;杜飞明;陈方;;集成学习算法在不平衡分类中的应用研究[J];计算技术与自动化;2009年02期
8 华崇良;影音器材性能客观评测标准说明之一——DVD播放机篇[J];实用影音技术;2002年03期
9 李旭;反证ERP的成功[J];电子商务世界;2003年07期
10 石岩;反毒:以产业的力量[J];中国计算机用户;1999年31期
相关会议论文 前10条
1 杨丽;章勇;;P2P系统研究[A];2009全国计算机网络与通信学术会议论文集[C];2009年
2 杨潇;马军;杨同峰;杜言琦;邵海敏;;基于主题模型LDA的多文档自动摘要[A];第五届全国信息检索学术会议论文集[C];2009年
3 陈敏;王翠叶;;中文信息处理的现状与展望[A];语言文字应用研究论文集(Ⅱ)[C];2004年
4 卿斯汉;;信息安全若干问题之我见[A];第十二届全国计算机安全技术交流会论文集[C];1997年
5 王晖;马军;;面向Web论坛的多文档摘要方法[A];第五届全国信息检索学术会议论文集[C];2009年
6 张娜;李济洪;;基于语义标注的中文阅读理解语料库的建设[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
7 常晓冀;;试谈我国计算机安全防护对策[A];第七次全国计算机安全学术交流会论文集[C];1992年
8 王桂平;李柱一;刘睿;王者晋;;实验性自身免疫性重症肌无力被动免疫模型的建立与评测[A];中华医学会第七次全国神经病学学术会议论文汇编[C];2004年
9 时美芳;朱美红;顾旭东;杨叶珠;曹小英;;康复护理干预对单侧空间忽略患者ADL的影响[A];中国康复医学会第五次全国老年康复学术大会上海市康复医学会成立20周年暨老年康复诊疗提高班论文汇编[C];2008年
10 张步峰;何丕廉;张冬冬;李沐;周明;;短语切分概率在统计机器翻译系统中的应用[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
相关重要报纸文章 前10条
1 ;IT企业渴望职业评测标准[N];中国计算机报;2006年
2 本报记者 肖志飞;借健康评测打造品牌竞争高地[N];医药经济报;2007年
3 江山;39健康网欲打造竞争高地[N];中华工商时报;2007年
4 刘洪宇;服务器能效考量心中有数[N];中国计算机报;2008年
5 ;荒诞评测为哪般[N];科技日报;2000年
6 选题策划 张碧涌 info@gmw.cn 主持人 钟晓军;电脑质量如何评测[N];光明日报;2004年
7 胡小明;挖坑与成活率[N];计算机世界;2002年
8 电脑报评测实验室;我们的评测,我们的标准[N];电脑报;2002年
9 燕平;GMG两套打样系统在意大利打样竞赛中获胜[N];中国包装报;2006年
10 章森 王伟 华绍和;语音识别标准之痛[N];计算机世界;2006年
相关博士学位论文 前2条
1 张溯;集成电路工程学及IP评测技术的研究[D];合肥工业大学;2004年
2 林雪纲;网络信息系统生存性分析研究[D];浙江大学;2006年
相关硕士学位论文 前10条
1 邢连萍;度量测度在计算机图形学中的应用[D];天津大学;2007年
2 徐源;使用组合度量函数的自适应采样算法研究[D];天津大学;2006年
3 甄怡;商业综合体建筑布局的易读性与“寻路”[D];同济大学;2007年
4 巢建树;与文本无关的说话人确认系统的信道鲁棒性研究[D];上海交通大学;2009年
5 徐晓峰;大规模用户在线行为数据分析[D];上海交通大学;2013年
6 姚松源;文本自动分类系统的研究与实现[D];北京工业大学;2003年
7 吴智;软件可靠性与安全性理论模型及应用[D];贵州大学;2006年
8 郭爱丽;美国20世纪50—70年代教师教育改革研究[D];华南师范大学;2007年
9 王佳;基于社会化媒体的自适应信息推荐机制研究[D];西南财经大学;2011年
10 张顺;多标记数据分类相关技术研究[D];山东师范大学;2013年
本文编号:1954233
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1954233.html