基于并行遗传算法的游戏虚拟货币市场的数据分析
【摘要】 根据美国市场分析机构ABI Research的报告,全球网游市场规模在2015年将超过290亿美金[1]。游戏虚拟货币是该产业链上的核心商品,处于产业链上的实体都亟需了解市场的工具以获取供求统计信息及实时信息。大规模的网游市场伴随着海量网络数据的出现,但基于该特定领域的自然语言处理技术(包括文本信息表示技术、同义词问题处理、特征词选择方法、文本检索技术、文本分类技术、Web信息提取技术等)的研究仍不多见。本文针对上述问题,构造虚拟的专业搜索引擎,以获取网游领域相关的结果集作为初始研究对象,并结合游戏虚拟货币网络交易的特征,用适当的分类方法将初始结果集分类,以获得承载游戏虚拟货币网络交易信息的网页集,再基于该网页集进行游戏虚拟货币网络交易订单的数据采集和分析(包括冗余检查和状态更新),主要内容为:1.建立向量空间模型以处理网页文本,并提出结合领域特征的特征词选择方法和同义词处理方法,来计算和降低向量空间的维度。2.基于多个通用搜索引擎,构造虚拟的专业搜索引擎以获取网游领域相关的网页集,作为初始研究对象。3.以K-近邻文本分类方法为基础,提出一种变换的KNN分类方法,对网页集进行文本分类,该方法基于对训练语料的分析,以余弦计算新文本与已知类别的相似度,不仅实现简单且准确率高,对训练文本的重新训练代价较低,计算的时间和空间复杂度都在训练规模的线性变化空间内。4.采用基于DOM的Web信息提取技术提取订单信息不仅简单高效,而且信息的采集稳定可靠。结合遗传算法的基本思想以检测多次采集的订单信息的状态变化,不仅具有全局搜索优化性能以及高效的并行计算性能,而且具有自组织、自适应、自学习的特征,从而可以确保订单信息采集的高效性和准确性。5.建立游戏虚拟货币数据应用平台,以提供供求统计信息服务及实时信息服务。
第一章 绪论
1.1 研究背景及意义
大规模的网游市场伴随海量网络数据的出现,无论是对产业链上的采购方还是供应方,都亟需一个工具以获取实时的对称信息及非实时的供求统计信息,以降低自身交易成本或采取有利于自身利益的有关决策。从整个市场来看,产业链上的各个实体通过这样的一个工具获得信息后,而作出的相应动作,间接协调了整个产业中供求关系的动态平衡,有利于良性竞争及最大限度地降低由于信息不对称和资源配置不对称带来的负面成本,使市场资源得到优化配置,从而促进了整个产业的产值增长。专门针对于游戏虚拟货币网络交易市场的数据分析工具,当前国外研究几乎为零,国内比较有影响的分析工具包括:“游戏麦”、“9841 比价器”等。这些比价搜索类网站,专注于为广大游戏工作室的虚拟交易导向护航,如提供游戏技术资讯、骗子查询、B2C 商城等服务。它们在一定程度上对网游交易开展了专业化的信息整合,并通过定向分字段以抽取出必要的数据进行处理,再以更人性化的形式返回给用户。
.............
1.2 本文主要工作
本论文主要研究基于游戏虚拟货币网络交易市场的数据分析,其主要内容包括:文本表示(同义词问题、特征词选择问题、向量空间模型)、基于网游领域的文本检索、网络交易订单信息的提取和订单状态检测等,本论文要解决的主要问题如下:
1. 建立游戏虚拟货币网络交易的数据分析模型,并在接下来的章节分别讨论模型中的各个部件。
2. 基于向量空间表示法,建立向量空间模型。基于训练文本选择特征词,组成正交特征向量的基,并用来将网游领域中的文本表示为文本向量,每个特征项对应向量空间中的一维,在每一维中的值代表一定意义的相关程度。本文将已有的特征词选择方法和特定领域的文本特征相结合,通过对文本进行特殊的预处理以及对特征词选择方法的对应配置,来获得网游领域中的特征词库,也即是游戏虚拟货币网络交易领域的特征词库,笔耕文化推荐期刊,在不引起歧义的情况下,游戏虚拟货币网络交易领域在本文中简称为网游领域。
.............
第二章 游戏虚拟货币网络交易数据分析模型
2.1 游戏虚拟货币概述
游戏虚拟货币(Game Gold),是存在于游戏程序之外,存储在游戏企业提供的服务器内的一种虚拟物。它由游戏运营商发行,玩家通过实际货币按一定比例直接或间接购买,如通过预付充值卡、点卡等形式兑换游戏虚拟货币,以用于游戏虚拟货币发行企业所提供的指定范围、指定时间内的网游服务[9]。
2.2 游戏虚拟货币网络交易概述
在产业链上,金币采购商(金币收购商)通过其收购网站发布金币收购需求信息,打金者(包括专门的打金团队或打金公司)在收购网站上与金币采购商进行交易,金币采购商再通过其销售网站或者其他销售渠道如 eBay等,以预付充值卡或预付点卡等形式,将金币出售给玩家。如图 2-1 所示:
由图 2-1 可知,游戏虚拟货币的网络交易信息在收购网和销售网中发布,从打金者到最终玩家,经历了“供应——需求——供应”的过程,本文以打金者与收购商的供求关系为研究对象,收集收购网站中的发布的需求信息和交易信息。
...........
第三章 网游领域的文本向量空间................................8
3.1 向量空间模型概述 ...................... 8
3.2 网游领域的文本向量空间 ........................... 10
第四章 网游领域的文本检索..................................24
4.1 网游领域文本检索概述 .......................... 24
4.2 虚拟的专业搜索引擎 ...................... 25
4.3 分类器 .................... 33
第六章 数据应用
6.1 经济指标
经过前述各个章节的讨论,可以定义如下几个经济指标,用来提供相关的供求统计信息服务和实时信息服务:
1. 市场总值需求活跃指数:总价值=数量*价格;
2. 价格活跃指数(环比):(现价 – 旧价)/旧价)%;
3. 总需求量活跃指数(环比):((现需求量 – 旧需求量)/旧需求量)%;
4. 平均价格;
5. 实时价格;供求统计信息反应了游戏虚拟货币市场的供求关系,并一定程度上预测了整个市场的走势,将直接影响收购公司和打金业务者采取有利于自身的相关决策,同时也间接影响了金币购买者购买行为。从全局来看,其最终的结果,是使得整个市场的资源得到优化配置,促进了整个产业的发展。实时信息直接反应了当前的具体需求和价格,直接影响当前网络交易的行为和结果,无论是金币收购商还是打金业务者,都会在当前通过调整或选择有利于自身最大利润的交易行为,扬长避短,提升自身竞争力。
.............
第七章 总结与展望
7.1 本文的总结
在第二章中建立了一个基于游戏虚拟货币网络交易市场的数据分析模型,并在接下来的章节详细讨论和分析模型中的各个部件和其中的重要处理过程。为了得到承载游戏虚拟货币网络交易信息的网页集,必须通过基于网游领域的文本检索。首先需要将网页文本表示为计算机能够识别的形式,因此在第三章中基于向量空间模型建立了网游领域的文本向量空间,设计和实现了结合领域特征进行特征词选择的方法,简单、高效,并且选择准确率高;接着提出了结合《同义词词林》和自定义的词典注释进行同义词问题的处理的方法,提高了网游领域中同义词辨析的全面性和准确性。在第四章中接着讨论如何获得承载游戏虚拟货币网络交易信息的网页集。首先设计和实现了一个基于通用搜索引擎而构造的虚拟专业搜索引擎,以获得网游领域相关的初始网页集,该方法不仅原理简单,而且避免了采用传统的网络爬虫去展开全面搜索的问题,体现了特定领域文本检索的优越性。然后基于 KNN 文本分类的基本思想,提出和实现了一种变换的 KNN 分类方法,将初始网页集中的承载游戏虚拟货币网络交易信息的网页归类出来,形成订单网页集。由于该方法充分利用了训练文本的特征和网游领域中存在大量专业术语的特征,确保了网游领域的文本检索的效率和准确性。.............
参考文献:
[1] 郭建兵,崔志明,陈明,赵朋朋. 基于DOM树与领域本体的Web抽取方法[J]. 计算机工程. 2012(05)
[2] 杨舟,卓林,赵朋朋,崔志明. 一种针对商品数据记录的自动抽取方法[J]. 计算机工程. 2010(23)
[3] 戴文华,焦翠珍,何婷婷. 基于混合并行遗传聚类的文本特征抽取方法研究[J]. 计算机科学. 2008(09)
[4] 孙麟,牛军钰. 基于领域相关词汇提取的特征选择方法[J]. 小型微型计算机系统. 2007(05)
[5] 刘丹,谢庆生,顾新建. 电子商务环境下产品本体构建技术研究[J]. 计算机应用. 2007(03)
[6] 徐金雷,杨晓江. 专业搜索引擎的排序算法研究[J]. 现代图书情报技术. 2006(07)
[7] 刘维群,李元臣. 基于遗传算法的个性化信息的特征提取[J]. 现代情报. 2006(06)
[8] 张继东,刘萍. 基于语料库同义词辨析的一般方法[J]. 解放军外国语学院学报. 2005(06)
[9] 赵世奇,张宇,刘挺,陈毅恒,黄永光,李生. 基于类别特征域的文本分类特征选择方法[J]. 中文信息学报. 2005(06)
[10] 张宁,贾自艳,史忠植. 使用KNN算法的文本分类[J]. 计算机工程. 2005(08)
本文编号:10462
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/10462.html