基于体育赛事互联网数据的赛事推荐模型研究 ——以马拉松赛事为例
发布时间:2021-07-14 07:58
随着社会经济的快速发展与思想理念的转变,当前群众参与体育赛事的热情日趋高涨。以马拉松赛事为例,去年全国的参赛场次已过千场。但复杂的赛事分类标准与赛事信息供给不均增加了跑者选择赛事的难度与时间成本。如何更好地利用现存的大量赛事网络数据,解决赛事信息流通的过载已成为推动体育信息数字化发展的潜在应用问题。基于此问题导向,本文选择研究当下体育赛事互联网数据的共同特征及对应适用的赛事推荐技术,构建可行的赛事推荐模型作为主要的解决方向。本文通过对目前赛事的特征进行探讨研究,分析对比适合互联网赛事数据的推荐技术。并以爱燃烧网的马拉松赛事数据为例,对相应赛事推荐模型的算法选择与模型构建进行探讨,确定基于内容的推荐模型及其常用的三种关键算法来实现赛事推荐模型构建的目标。在上述基础上,进一步研究赛事推荐模型的构建框架,着重分析了赛事向量化与赛事相似度计算步骤,并在采集的马拉松赛事数据集上进行实验对比。从结果看,构建的赛事推荐模型在马拉松赛事的推荐上有较好的性能表现,其验证了基于内容进行推荐的算法在推荐赛事信息上的可行性。以此可以有效满足现有群众对马拉松赛事推荐的需求,同时也为构建有效的体育赛事互联网数据处...
【文章来源】:上海体育学院上海市
【文章页数】:84 页
【学位级别】:硕士
【部分图文】:
推荐系统通用流程
基于体育赛事互联网数据的赛事推荐模型研究——以马拉松赛事为例15的字段名称,根据数据表构建第三范式的标准,每个字段名称都是独立且不重复的,其代表了在该数据集下的一种数据特征。同时在数据存储过程中,三类赛事网络数据包含对应数据表中所有字段信息的数据,视为一条数据表的元数据,也称为元组[36]。为了有效地采集赛事网络数据中的特征数据,且使数据集符合体育项目赛事的信息详情,本研究明确三种数据集下的固有字段名,从而使该采集框架能够匹配至各类赛事的网络数据采集过程中。图2-1赛事网络数据采集框架其中赛事属性网络数据集应包含赛事编号、赛事名称、赛事举办地、赛事日期、赛事简介五种字段名,赛事编号是该数据集的主键即必要的字段名;用户属性网络数据集包含用户编号、用户名称、用户性别、用户所在地四种字段名,其中用户编号是该数据集的必要字段名;用户参与赛事网络数据集则和其他两表相关联,同时拥有赛事编号、用户编号,且含有必要的用户参赛编号。如表2-1、表2-2、表2-3所示,在该采集框架应用于各类赛事的网络数据采集时,应根据所需采集的赛事相关公开内容来确定包含其中对应的数据集及字段名称。在三个数据集构成的数据表中,赛事编号、用户编号与用户参赛编号是每个数据表的主键,即该字段是确定数据集中数据唯一性的关键字段。根据各类体育项目赛事网络数据的不同可以选择增添其他字段构成对应合理的数据表。表2-1赛事属性数据集采集字段36陈英达,黄巨涛,林强,等.关系型数据库逻辑设计规范研究[J].微型电脑应用,2018,34(6):1-2,7.
基于体育赛事互联网数据的赛事推荐模型研究——以马拉松赛事为例16表2-2用户属性数据集采集字段表2-3用户参赛数据集采集字段·2.3体育赛事互联网数据的采集步骤在大数据时代下,数据分析离不开对数据的合理搜索与采集。当前对于大批量互联网数据的采集已进入自动化采集的时期,该行为又称为网络数据搜集或网络爬虫[37]。网络爬虫技术目前在科学研究、舆情搜集、信息安全领域发挥了较大的作用,通过网络爬虫技术可以按设定的程序内容大批量地获取规则化的数据信息。目前基于python语言的爬虫技术应用最为广泛,通过python语言可以编写个性化的网站数据采集框架。同时也在插件的辅助下进行较大批量的数据采集,其中比较常用的插件模块包括了requests网页请求模块、scrapy爬虫框架与selenium自动化网页测试框架。网络爬虫的实现流程如图2-2网络爬虫的实现流程所示,首先需要获取待采集数据的网络站点地址(URL),通过代码对站点发送浏览请求从而获取站点内容,并进行解析使之转换为可读取的数据,最后根据需要的内容提取对应的数据类型并将其进行存储。通过编写代码或使用爬虫框架可以循环运行网络爬虫步骤并进行大量的站点自动化采集内容从而实现了自动化的操作。图2-2网络爬虫的实现流程体育赛事互联网数据的采集同样可以按照网络爬虫技术进行扩展。首先需要确定需要采集数据的目标网站与其中的目标内容。通过Python语言或其他计算机语言编写相应的网站内容请求模块代码、内容解析模块代码与内容采集模块代码。其后按照请求或取赛事数据网站内容,解析赛事数据内容、采集对应字段数37李影.体验型商品评论分主题效用排序研究[D].大连:东北财经大学,2017.
【参考文献】:
期刊论文
[1]计算文本相似度的方法体系与应用分析[J]. 黄文彬,车尚锟. 情报理论与实践. 2019(11)
[2]关系型数据库逻辑设计规范研究[J]. 陈英达,黄巨涛,林强,唐亮亮. 微型电脑应用. 2018(06)
[3]中央电视台2018年平昌冬奥会转播赛事数据的处理与展现[J]. 边志琨. 现代电视技术. 2018(06)
[4]文本特征提取方法研究综述[J]. 徐冠华,赵景秀,杨红亚,刘爽. 软件导刊. 2018(05)
[5]无监督的中文商品属性结构化方法[J]. 侯博议,陈群,杨婧颖,李战怀. 软件学报. 2017(02)
[6]利用互联网共享体育信息资源模式的探索[J]. 罗晓红,刘润芝. 山东体育科技. 2016(06)
[7]个性化推荐系统理论探索:从系统向用户为中心的演进[J]. 刘凯,王伟军,黄英辉,方璐. 情报理论与实践. 2016(03)
[8]体育网络信息资源整合研究[J]. 刘存,唐秋霞. 搏击(武术科学). 2015(10)
[9]体育信息资源整合及其网络共享服务模式的构建[J]. 王洪恩. 电子测试. 2015(08)
[10]Word2vec的工作原理及应用探究[J]. 周练. 科技情报开发与经济. 2015(02)
博士论文
[1]我国体育信息资源配置研究[D]. 杨世木.上海体育学院 2010
硕士论文
[1]马拉松赛事参赛者参与动机分析[D]. 董晓琴.上海体育学院 2019
[2]基于用户行为序列的推荐算法研究[D]. 蒋云鹏.新疆大学 2019
[3]新浪体育微博的传播内容研究[D]. 叶子.武汉体育学院 2019
[4]基于LSTM网络的政策挖掘研究与应用[D]. 李志鹏.北京交通大学 2019
[5]非传统和传统路跑赛事参赛者跑步动机的对比研究[D]. 陈玲玲.首都体育学院 2019
[6]中国马拉松赛事发展时空分布及影响因素研究[D]. 任杰.上海师范大学 2019
[7]基于Word2Vec的在线商品特征提取与文本分类研究[D]. 章跃琳.温州大学 2019
[8]基于用户行为的个性化推荐系统的研究与实现[D]. 毛雨欣.河北科技大学 2019
[9]中文现代小说的作者识别研究[D]. 肖亮.大连理工大学 2018
[10]文本向量化方法对文本分类效果影响的改进研究[D]. 赵政.首都经济贸易大学 2018
本文编号:3283744
【文章来源】:上海体育学院上海市
【文章页数】:84 页
【学位级别】:硕士
【部分图文】:
推荐系统通用流程
基于体育赛事互联网数据的赛事推荐模型研究——以马拉松赛事为例15的字段名称,根据数据表构建第三范式的标准,每个字段名称都是独立且不重复的,其代表了在该数据集下的一种数据特征。同时在数据存储过程中,三类赛事网络数据包含对应数据表中所有字段信息的数据,视为一条数据表的元数据,也称为元组[36]。为了有效地采集赛事网络数据中的特征数据,且使数据集符合体育项目赛事的信息详情,本研究明确三种数据集下的固有字段名,从而使该采集框架能够匹配至各类赛事的网络数据采集过程中。图2-1赛事网络数据采集框架其中赛事属性网络数据集应包含赛事编号、赛事名称、赛事举办地、赛事日期、赛事简介五种字段名,赛事编号是该数据集的主键即必要的字段名;用户属性网络数据集包含用户编号、用户名称、用户性别、用户所在地四种字段名,其中用户编号是该数据集的必要字段名;用户参与赛事网络数据集则和其他两表相关联,同时拥有赛事编号、用户编号,且含有必要的用户参赛编号。如表2-1、表2-2、表2-3所示,在该采集框架应用于各类赛事的网络数据采集时,应根据所需采集的赛事相关公开内容来确定包含其中对应的数据集及字段名称。在三个数据集构成的数据表中,赛事编号、用户编号与用户参赛编号是每个数据表的主键,即该字段是确定数据集中数据唯一性的关键字段。根据各类体育项目赛事网络数据的不同可以选择增添其他字段构成对应合理的数据表。表2-1赛事属性数据集采集字段36陈英达,黄巨涛,林强,等.关系型数据库逻辑设计规范研究[J].微型电脑应用,2018,34(6):1-2,7.
基于体育赛事互联网数据的赛事推荐模型研究——以马拉松赛事为例16表2-2用户属性数据集采集字段表2-3用户参赛数据集采集字段·2.3体育赛事互联网数据的采集步骤在大数据时代下,数据分析离不开对数据的合理搜索与采集。当前对于大批量互联网数据的采集已进入自动化采集的时期,该行为又称为网络数据搜集或网络爬虫[37]。网络爬虫技术目前在科学研究、舆情搜集、信息安全领域发挥了较大的作用,通过网络爬虫技术可以按设定的程序内容大批量地获取规则化的数据信息。目前基于python语言的爬虫技术应用最为广泛,通过python语言可以编写个性化的网站数据采集框架。同时也在插件的辅助下进行较大批量的数据采集,其中比较常用的插件模块包括了requests网页请求模块、scrapy爬虫框架与selenium自动化网页测试框架。网络爬虫的实现流程如图2-2网络爬虫的实现流程所示,首先需要获取待采集数据的网络站点地址(URL),通过代码对站点发送浏览请求从而获取站点内容,并进行解析使之转换为可读取的数据,最后根据需要的内容提取对应的数据类型并将其进行存储。通过编写代码或使用爬虫框架可以循环运行网络爬虫步骤并进行大量的站点自动化采集内容从而实现了自动化的操作。图2-2网络爬虫的实现流程体育赛事互联网数据的采集同样可以按照网络爬虫技术进行扩展。首先需要确定需要采集数据的目标网站与其中的目标内容。通过Python语言或其他计算机语言编写相应的网站内容请求模块代码、内容解析模块代码与内容采集模块代码。其后按照请求或取赛事数据网站内容,解析赛事数据内容、采集对应字段数37李影.体验型商品评论分主题效用排序研究[D].大连:东北财经大学,2017.
【参考文献】:
期刊论文
[1]计算文本相似度的方法体系与应用分析[J]. 黄文彬,车尚锟. 情报理论与实践. 2019(11)
[2]关系型数据库逻辑设计规范研究[J]. 陈英达,黄巨涛,林强,唐亮亮. 微型电脑应用. 2018(06)
[3]中央电视台2018年平昌冬奥会转播赛事数据的处理与展现[J]. 边志琨. 现代电视技术. 2018(06)
[4]文本特征提取方法研究综述[J]. 徐冠华,赵景秀,杨红亚,刘爽. 软件导刊. 2018(05)
[5]无监督的中文商品属性结构化方法[J]. 侯博议,陈群,杨婧颖,李战怀. 软件学报. 2017(02)
[6]利用互联网共享体育信息资源模式的探索[J]. 罗晓红,刘润芝. 山东体育科技. 2016(06)
[7]个性化推荐系统理论探索:从系统向用户为中心的演进[J]. 刘凯,王伟军,黄英辉,方璐. 情报理论与实践. 2016(03)
[8]体育网络信息资源整合研究[J]. 刘存,唐秋霞. 搏击(武术科学). 2015(10)
[9]体育信息资源整合及其网络共享服务模式的构建[J]. 王洪恩. 电子测试. 2015(08)
[10]Word2vec的工作原理及应用探究[J]. 周练. 科技情报开发与经济. 2015(02)
博士论文
[1]我国体育信息资源配置研究[D]. 杨世木.上海体育学院 2010
硕士论文
[1]马拉松赛事参赛者参与动机分析[D]. 董晓琴.上海体育学院 2019
[2]基于用户行为序列的推荐算法研究[D]. 蒋云鹏.新疆大学 2019
[3]新浪体育微博的传播内容研究[D]. 叶子.武汉体育学院 2019
[4]基于LSTM网络的政策挖掘研究与应用[D]. 李志鹏.北京交通大学 2019
[5]非传统和传统路跑赛事参赛者跑步动机的对比研究[D]. 陈玲玲.首都体育学院 2019
[6]中国马拉松赛事发展时空分布及影响因素研究[D]. 任杰.上海师范大学 2019
[7]基于Word2Vec的在线商品特征提取与文本分类研究[D]. 章跃琳.温州大学 2019
[8]基于用户行为的个性化推荐系统的研究与实现[D]. 毛雨欣.河北科技大学 2019
[9]中文现代小说的作者识别研究[D]. 肖亮.大连理工大学 2018
[10]文本向量化方法对文本分类效果影响的改进研究[D]. 赵政.首都经济贸易大学 2018
本文编号:3283744
本文链接:https://www.wllwen.com/jiaoyulunwen/tylw/3283744.html