当前位置:主页 > 经济论文 > 电子商务论文 >

点击流数据仓库在电子商务中的研究与应用

发布时间:2018-11-18 13:25
【摘要】:随着数据库技术的发展,企业的办公效率大大地提高了。数据库的广泛应用,,使得企业存储的业务数据急剧的增长。存储于企业之中的大量数据无法转化成有效的信息,导致了“数据丰富,信息贫乏”的局面,这种情况使得企业对于数据库的投资无法转化成收益。数据仓库可以存储大量的历史数据,它的出现很好地解决了这个问题。传统的数据仓库只是从各类业务数据库之中加载数据,随着Internet的发展,Web数据日益成为人们所关注的重要数据来源。在这些数据中,Web日志是十分重要的一种行为数据,它可以帮助决策者理解用户习惯,进而做出有针对性的部署。本文就是在这样一种背景下,构建了点击流数据仓库、实施了基于隐式关联页面的用户聚类算法,并描述了用户聚类算法如何在电子商务中的应用。 本文所构建的点击流数据仓库以电子商务环境为应用背景,以Web日志为重要数据源。数据仓库设计采用了Inmon所倡导的数据仓库+从属数据集市的构架,数据仓库采用关系模型构建,维度数据集市采用维度模型构建。数据仓库作为企业管理人员做出决策的数据基础,它以第三范式的形式存储了大量的、低粒度的业务历史数据。从属数据集市基于用户的需求而构造。采用数据仓库+从属数据集市架构可以很好的平衡访问效率和结构调整的灵活性。在所构建的点击流数据仓库的基础上,本文给出了一种基于向量的点击流用户聚类算法。算法将用户的点击流数据映射为向量数据,根据向量之间夹角的大小程度来判断用户之间的相似程度。论文将隐式关联页面挖掘算法所得到的关联页面组作为向量的维度。隐式关联页面可以很好地反映用户的访问习惯,更好的突出感兴趣的主题性。 论文所属算法在所构建的实验性数据仓库上进行了验证。实验表明,算法能够有效地识别用户目标页面,发现两项以上的隐式关联页面。用户聚类亦可以更好地适应复杂的互联网环境。
[Abstract]:With the development of database technology, the office efficiency of enterprises has been greatly improved. With the wide application of database, the business data stored by enterprises increase rapidly. The large amount of data stored in the enterprise can not be converted into effective information, which leads to the situation of "rich data, poor information", which makes the enterprise's investment in the database can not be converted into income. Data warehouse can store a lot of historical data, and it solves this problem well. Traditional data warehouse only loads data from all kinds of business databases. With the development of Internet, Web data is becoming an important data source that people pay more and more attention to. Among these data, Web logging is a very important behavior data, it can help decision makers understand user habits, and then make targeted deployment. In this paper, we construct the click-stream data warehouse, implement the user clustering algorithm based on implicit association pages, and describe the application of user clustering algorithm in e-commerce. The click-stream data warehouse constructed in this paper is based on electronic commerce environment and Web log as important data source. The design of data warehouse adopts the framework of data warehouse subordinate data Mart advocated by Inmon. The data warehouse is constructed by relational model and dimension data Mart is constructed by dimension model. As a data base for enterprise managers to make decisions, data Warehouse stores a large amount of low granularity business history data in the form of the third normal form. Dependent data marts are constructed based on user needs. Using data warehouse subordinate data Mart architecture can balance access efficiency and flexibility of structure adjustment. Based on the click-stream data warehouse, a vector-based click-stream user clustering algorithm is presented in this paper. The algorithm maps the user's click-stream data to vector data and judges the similarity between users according to the magnitude of the angle between vectors. In this paper, the association page group obtained by the implicit association page mining algorithm is regarded as the dimension of the vector. Implicit association pages can well reflect the user's visiting habits and better highlight the theme of interest. The algorithm is verified on the experimental data warehouse. Experiments show that the algorithm can effectively identify user target pages and find more than two implicit association pages. User clustering can also better adapt to the complex Internet environment.
【学位授予单位】:辽宁工业大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP311.13

【参考文献】

相关期刊论文 前10条

1 郭晓淳;马冬梅;;点击流数据仓库中基于事件驱动的星型ER模型[J];信息技术;2012年06期

2 褚红丹;焦素云;马威;;用户访问兴趣路径挖掘方法[J];计算机工程与应用;2008年35期

3 林文龙;刘业政;余智学;;用页组拓扑平均距离改善页面聚类算法[J];计算机科学;2008年10期

4 刘嘉;祁奇;陈振宇;惠成峰;;ESSK:一种计算点击流相似度的新方法[J];计算机科学;2012年06期

5 马超;沈微;;基于闭合有间隔频繁子序列的点击流聚类[J];计算机工程;2010年23期

6 周勇,鲍钰;互联网目标页面间隐式关联规则的发现[J];计算机应用;2004年08期

7 黎客来;汤震;;点击流数据仓库系统应用研究[J];计算机与现代化;2008年02期

8 杨怡玲,管旭东,尤晋元;基于页面内容和站点结构的页面聚类挖掘算法[J];软件学报;2002年03期

9 李晓明;夏秀峰;张斌;;一种具有增量挖掘功能的Web点击流聚类算法[J];沈阳大学学报;2010年03期

10 曾陈萍;;点击流数据仓库的维度建模设计与实现[J];统计与决策;2008年08期

相关博士学位论文 前1条

1 鲍钰;WEB日志挖掘及其应用研究[D];华东师范大学;2010年



本文编号:2340145

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/2340145.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4fe9b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com