当前位置:主页 > 科技论文 > 信息工程论文 >

面向电子商务海量数据的智能挖掘技术研究

发布时间:2016-07-08 18:01

  本文关键词:面向电子商务海量数据的智能挖掘技术研究,由笔耕文化传播整理发布。


《山东师范大学》 2015年

面向电子商务海量数据的智能挖掘技术研究

刘全志  

【摘要】:伴随着计算机和网络技术的迅猛发展,Internet已经融入到人们日常生活中的各个方面,它在不知不觉间影响着现今社会人们的生活习惯。随着Web2.0时代的到来,使得互联网信息的创建和传播变得越来越容易。海量的网络信息使用户的信息需求得到了满足。但是,信息量过多也绝对不是什么好事,人们也在承受着信息过载(information overload)带来的困扰。在这个时代,无论是信息需求者还是信息供应者都面临着巨大的挑战:对于信息需求者,从海量的互联网信息中找到自己感兴趣的信息将是一件相当困难的事情;对于信息供应者,,让自己供应的信息脱颖而出,得到广大网民的认可,也是一件相当困难的事情。 众所周知,为了解决信息过载的问题,在不同的时期人们提出了许多不同的方法。总结起来,分为三个主要发展阶段,即导航、检索和推荐。导航,随着互联网网站数量的指数级增加,导航已经逐渐退出历史舞台,目前我们常见的分类目录网站就属于这一类,如国内的Hao123、国外的Yahoo和DMOZ等。检索,百度、谷歌等搜索引擎皆属于此类,人们只要在搜索框中输入相应的关键词,就可获取自己想要的信息。但很多时候人们并不知道自己的明确需求,此时,就需要进行推荐。推荐,根据用户的历史行为,为用户建立兴趣模型,从而主动地为用户提供他们想要的信息。 随着Internet的发展及国家相关政策的支持,电子商务网站如雨后春笋般涌现出来。传统商店受经营场所面积及货架成本制约,不能将所有的商品展示出来。但电子商务网站不受这些因素影响,能够用比较低成本展示并出售更多的商品。如何从海量的同质商品中选出自己满意的商品,这是用户比较关注的问题;如何让用户从海量的商品中选择自己的产品,也成为影响电子商务网站发展的重要因素。将推荐系统应用于电子商务网站,不仅能提高电子商务网站的业绩,也能对用户提供较好的服务,从而避免用户流失。因此,电子商务网站的推荐系统成为了当前学术界及产业界的研究热点。 本文首先对当前常用推荐算法分类进行了介绍,并通过简单的示例描述了各个推荐算法的原理,接合亚马逊电子商务网站说明了推荐系统在实际环境中的应用。 其次,本文针对HTML文档开发了一套信息采集抽取系统。系统利用开源的网络爬虫Heritrix对电子商务网站的网页进行爬取,然后采用开源的JSoup进行信息抽取。为验证系统的性能,我们对国内最大的B2C电子商务网站天猫商城及国内最大的B2B电子商务网站阿里巴巴的销售记录进行了采集抽取,并得到了良好的实验结果。 再次,传统的基于物品的协同过滤算法和基于用户的协同过滤算法存在矩阵稀疏的问题,一旦将稀疏矩阵补全,则又会出现存储空间过大及计算时间过长的问题。针对该情况,本文对隐语义模型LFM(Latent Factor Model)进行了研究,结合目前常见的标签系统,提出了基于标签的推荐算法。根据标签的生成方式,一般分为两种:一种是由专业的编辑对物品打有限的标签;另一种是让用户根据自己的感知给物品打上相应标签,即UGC(UserGenerated Content,用户生成的内容)。这样,UGC标签既能反映用户的意识,又描述了物品的某种属性,从而将用户和物品联系了起来。目前,很多Web2.0网站都带有UGC标签系统。 最后,我们通过相关数据集对该算法就进行了评测,并取得了理想的结果。

【关键词】:
【学位授予单位】:山东师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3;TP311.13
【目录】:

下载全文 更多同类文献

CAJ全文下载

(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

CAJViewer阅读器支持CAJ、PDF文件格式


【参考文献】

中国期刊全文数据库 前3条

1 张敏;孙敏;;基于Heritrix限定爬虫的设计与实现[J];计算机应用与软件;2013年04期

2 李萍;朱建波;周立新;廖彬;;基于快速构建模板的购物信息抽取方法[J];计算机应用;2014年03期

3 夏天;;中心网页中主题网页链接的自动抽取[J];山东大学学报(理学版);2012年05期

【共引文献】

中国期刊全文数据库 前10条

1 冀俊忠,沙志强,刘椿年,郎青;B2C电子商务站点中知识发现的研究[J];北京工业大学学报;2003年02期

2 张帆;林建;;智能搜索引擎信息过滤机制研究[J];图书与情报;2007年04期

3 蔡晓霞;;数据挖掘技术在图书馆中的应用[J];长春师范学院学报;2011年04期

4 牟乃夏;刘文宝;张灵先;孙翠羽;;空间信息服务的个性化问题[J];测绘科学;2011年03期

5 何兴无;;用户兴趣实例模型与K_means算法的改进[J];重庆师范大学学报(自然科学版);2006年02期

6 曹毅;罗新星;;电子商务推荐系统关键技术研究[J];湘南学院学报;2008年05期

7 朱郁筱;吕琳媛;;推荐系统评价指标综述[J];电子科技大学学报;2012年02期

8 孙多;;教育网站个性化推荐系统中的一种用户兴趣模型的建立[J];电脑知识与技术(学术交流);2007年21期

9 章婷;姚万辉;;关联规则和事务集分组技术在图书馆个性化推荐系统中的应用研究[J];电脑知识与技术;2009年31期

10 闫洲;石刘红;;基于用户和项目组合的协同过滤推荐算法[J];电脑知识与技术;2011年16期

中国重要会议论文全文数据库 前10条

1 高琪;辛乐;;基于用户偏好度模型和情感计算的产品推荐算法[A];第二十九届中国控制会议论文集[C];2010年

2 赵琦;骆志刚;田文颖;李聪;丁凡;;一种基于负反馈信息的用户兴趣模型修正方法[A];中国通信学会第六届学术年会论文集(下)[C];2009年

3 蔡晓霞;;数据挖掘在图书馆中的应用[A];福建省图书馆学会2010年学术年会论文集[C];2010年

4 周玉妮;郑会颂;;基于浏览路径选择的蚁群推荐算法:用于移动商务个性化推荐系统[A];社会经济发展转型与系统工程——中国系统工程学会第17届学术年会论文集[C];2012年

5 徐晓东;郭燕慧;;AppStore应用信息自动化采集系统设计与实现[A];2013年中国信息通信研究新进展论文集[C];2014年

6 吴克河;何霞;李廷顺;;基于Lucene构建电力企业搜索引擎分析器[A];2008电力行业信息化年会会议论文集[C];2008年

7 赵琦;骆志刚;田文颖;李聪;丁凡;;一种基于负反馈信息的用户兴趣模型修正方法[A];中国通信学会第六届学术年会论文集(下)[C];2009年

8 赵振宇;杭国强;陈芨;庄怀宇;;移动互联网业务智能推荐系统设计研究[A];2014全国无线及移动通信学术大会论文集[C];2014年

9 徐晓东;郭燕慧;;App Store应用信息自动化采集系统设计与实现[A];2013年中国信息通信研究新进展论文集[C];2014年

10 吴运超;崔浩;王赛;王浩然;崔真真;;面向规划编制的网络数据获取与整合方法研究[A];第十七届中国科协年会——分16 大数据与城乡治理研讨会论文集[C];2015年

中国博士学位论文全文数据库 前10条

1 张寅;个性化技术及其在数字图书馆中应用的研究[D];浙江大学;2009年

2 靳延安;社会标签推荐技术与方法研究[D];华中科技大学;2011年

3 胡慕海;面向动态情境的信息推荐方法及系统研究[D];华中科技大学;2011年

4 叶红云;面向金融营销问题的个性化推荐方法研究[D];合肥工业大学;2011年

5 刘毅捷;视频社区中海量数据管理方法研究[D];中国科学技术大学;2011年

6 刘润然;复杂网络上的几种动力学过程研究[D];中国科学技术大学;2011年

7 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年

8 马春山;移动增值业务的个性化推荐研究[D];北京邮电大学;2011年

9 夏培勇;个性化推荐技术中的协同过滤算法研究[D];中国海洋大学;2011年

10 杨鹏;面向事件感知的应急临机决策引擎研究[D];天津大学;2010年

中国硕士学位论文全文数据库 前10条

1 吴则则;支持动态演进的用户兴趣模型挖掘方法研究[D];山东科技大学;2010年

2 何莹杰;个性化图书信息服务技术研究[D];哈尔滨工程大学;2010年

3 李媛;电子商务个性化推荐关键技术研究[D];哈尔滨工程大学;2010年

4 李春;协同过滤推荐算法的研究[D];湘潭大学;2010年

5 韩璐;针对推荐系统中信息共享需求下隐私保护机制的研究与实现[D];华东师范大学;2011年

6 宋健;基于主题挖掘和时间窗口划分的兴趣推荐技术研究[D];华东师范大学;2011年

7 仵雪婷;基于知识情境的知识个性化推送技术的研究与应用[D];南昌大学;2010年

8 金亚亚;一种基于改进信任度的协同过滤算法[D];华东理工大学;2011年

9 夏超伦;基于社会计算的电子商务协同过滤推荐算法研究[D];浙江大学;2011年

10 郑佳佳;社交网络中基于图排序的好友推荐机制研究与实现[D];浙江大学;2011年

【二级参考文献】

中国期刊全文数据库 前10条

1 林亚平,刘云中,周顺先,陈治平,蔡立军;基于最大熵的隐马尔可夫模型文本信息抽取[J];电子学报;2005年02期

2 王宇;谭松波;廖祥文;曾依灵;;基于扩展领域模型的有名属性抽取[J];计算机研究与发展;2010年09期

3 卢汉;曹存根;王石;;基于元性质的数量型属性值自动提取系统的实现[J];计算机研究与发展;2010年10期

4 董永权;李庆忠;丁艳辉;彭朝晖;;基于约束条件随机场的Web数据语义标注[J];计算机研究与发展;2012年02期

5 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期

6 王芳;于浩;谭红叶;赵铁军;;基于链接分块的相关链接提取方法[J];计算机工程与应用;2006年31期

7 刘辉;陈静玉;徐学洲;;基于模板流程配置的Web信息抽取[J];计算机工程;2008年20期

8 李素建,王厚峰,俞士汶,辛乘胜;关键词自动标引的最大熵模型应用研究[J];计算机学报;2004年09期

9 汪涛,樊孝忠;主题爬虫的设计与实现[J];计算机应用;2004年S1期

10 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期

中国硕士学位论文全文数据库 前1条

1 蒲宇达;基于web的网页链接与正文抽取技术研究[D];哈尔滨工业大学;2006年

【相似文献】

中国期刊全文数据库 前10条

1 张付志;张启凤;;融合多系统用户信息的协同过滤算法[J];计算机工程;2009年21期

2 周丽娟;徐明升;张研研;张璋;;基于协同过滤的课程推荐模型[J];计算机应用研究;2010年04期

3 刘淇;陈恩红;;结合二部图投影与排序的协同过滤[J];小型微型计算机系统;2010年05期

4 董全德;;基于双信息源的协同过滤算法研究[J];合肥工业大学学报(自然科学版);2010年07期

5 李聪;;电子商务协同过滤可扩展性研究综述[J];现代图书情报技术;2010年11期

6 傅鹤岗;李冉;;基于用户实时反馈的协同过滤算法[J];计算机应用;2011年07期

7 辛勤芳;;基于项目聚类的协同过滤算法研究[J];赤峰学院学报(自然科学版);2011年09期

8 杨君;汪会玲;艾丹祥;;一种基于情景的多维协同过滤新方法研究[J];图书情报工作;2011年21期

9 王宗武;;基于信任用户联合聚类的协同过滤算法[J];计算机与现代化;2013年09期

10 杜永萍;黄亮;何明;;融合信任计算的协同过滤推荐方法[J];模式识别与人工智能;2014年05期

中国重要会议论文全文数据库 前10条

1 周军锋;汤显;郭景峰;;一种优化的协同过滤推荐算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

2 沈杰峰;杜亚军;唐俊;;一种基于项目分类的协同过滤算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年

3 董全德;;基于双信息源的协同过滤算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年

4 李建国;姚良超;汤庸;郭欢;;基于认知度的协同过滤推荐算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

5 张光卫;康建初;李鹤松;刘常昱;李德毅;;面向场景的协同过滤推荐算法[A];中国系统仿真学会第五次全国会员代表大会暨2006年全国学术年会论文集[C];2006年

6 胡必云;李舟军;王君;;基于心理测量学的协同过滤相似度方法(英文)[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

7 王明文;陶红亮;熊小勇;;双向聚类迭代的协同过滤推荐算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

8 林丽冰;师瑞峰;周一民;李月雷;;基于双聚类的协同过滤推荐算法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年

9 罗喜军;王韬丞;杜小勇;刘红岩;何军;;基于类别的推荐——一种解决协同推荐中冷启动问题的方法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年

10 黄创光;印鉴;汪静;刘玉葆;王甲海;;不确定近邻的协同过滤推荐算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年

中国博士学位论文全文数据库 前10条

1 郭艳红;推荐系统的协同过滤算法与应用研究[D];大连理工大学;2008年

2 李聪;电子商务推荐系统中协同过滤瓶颈问题研究[D];合肥工业大学;2009年

3 罗恒;基于协同过滤视角的受限玻尔兹曼机研究[D];上海交通大学;2011年

4 薛福亮;电子商务协同过滤推荐质量影响因素及其改进机制研究[D];天津大学;2012年

5 高旻;基于计算语用学和项目的资源协同过滤推荐研究[D];重庆大学;2010年

6 孔维梁;协同过滤推荐系统关键问题研究[D];华中师范大学;2013年

7 沈磊;心理学模型与协同过滤集成的算法研究[D];北京航空航天大学;2010年

8 孙小华;协同过滤系统的稀疏性与冷启动问题研究[D];浙江大学;2005年

9 夏培勇;个性化推荐技术中的协同过滤算法研究[D];中国海洋大学;2011年

10 赵向宇;Top-N协同过滤推荐技术研究[D];北京理工大学;2014年

中国硕士学位论文全文数据库 前10条

1 胡淼;基于协同过滤的服务评价方法的研究[D];哈尔滨工程大学;2008年

2 赵伟;基于评分预测和概率融合的协同过滤研究[D];河南大学;2007年

3 彭玉;基于用户个人特征的多内容项目协同过滤推荐[D];西南大学;2007年

4 李冉;基于用户实时反馈的协同过滤算法研究[D];重庆大学;2011年

5 孙凯;协同过滤移动社区的研究与实现[D];北京邮电大学;2012年

6 全智超;基于用户性格的协同过滤推荐研究[D];首都师范大学;2014年

7 张亮;基于协同过滤与划分聚类的推荐算法研究[D];吉林大学;2014年

8 白龙;融合数据检测与用户信任的协同过滤算法研究[D];燕山大学;2010年

9 王均波;协同过滤推荐算法及其改进研究[D];重庆大学;2010年

10 庞军;双聚类算法及其在协同过滤中的应用研究[D];大连理工大学;2010年


  本文关键词:面向电子商务海量数据的智能挖掘技术研究,由笔耕文化传播整理发布。



本文编号:67354

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/67354.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户367eb***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com