澳门金沙9159游艺场回归分析的知识点很多

当你的游戏吸引到大量玩家后,你可以开始得到丰厚的回报了。现在,你的难题是怎么让这种成功延续下去。

你必须想出接触到用户的方法,计算出那类玩家可以从推广奖励中获益。所以,现在是时候设计一个分析数据的回归模型了。

澳门金沙9159游艺场 1

regression-analysis(from shmula.com)

简介回归分析

我不想拐弯抹角了:回归分析的知识点很多。你需要了解的是,它是一种数学方法,是由某些史上最聪明的数学家发明的,包括高斯,他用这个方法预测行星的位置——所以这不是一个简单的领域啊。但在本文中,我只谈一些基本的用法。

首先,大部分公司都很容易就得出某些比率,比如:

“23%访问我们网站的人体验了游戏。”

“5.6%的玩家在游戏中消费。”

“大部分收益来自5%的消费玩家。”

在大多数时候,这种简单的算术已经够用了。

第一课:使用最简单最实用的工具

为什么这是第一课?因为复杂的工具很容易搞砸。Feynman(注:美国物理学家,诺贝尔物理学奖获得者)曾经说过:“第一条原则是你绝对不要愚弄自己,因为你就是最容易被自己愚弄的人。”使用复杂的工具可能产生一些复杂而微妙的问题,很难预料和发现。

什么时候需要回归分析?

大多数人会想到做A/B测试——确实,这是模拟“比率”的最佳方案。你做两个测试,A和B。A导致销售额增长了5%,而B导致销售额增长了6%。所以B比A好。

但是,当你有大量相关的变量时,比率就变得很难计算了。假设你要解释为什么玩家不再玩你的游戏。你认为根据某些潜在的因素,你可以估计玩家何时会离开游戏,但你不肯定哪一个因素才是最有关系的。

例如,假设我们正在研究玩家的登录次数、游戏时长、最近离开的好友数量、他们得到的经验值和他们得到的成就数量。

用比率模拟所有这些变量可能永远也完成不了!在这些变量中,有些是离散的,但大部分是连续的。你得对它们划分成段(如,成就:1-5.6-10,11-15……),然后对各个段分别评级。

你得给每一个变量的可能排列设定比率,并在一个大的矩阵中比较它们。该死,应该有更好的办法才是!

好吧,这时候回归模型就派上用场了。

回归分析的作用方式

我没说我是数学教师,所以让我用业余人员能理解的方式描述回归分析吧。回归模型假设所有自变量都对目标(叫作“因变量”)有一定程度的影响。

你首先必须想出一套你认为变量如何起作用的理论——这个很重要。没有这套理论,你的工作将是盲目的,你的结果可能没有任何意义!

如果你的那套理论不起作用,你可以用回归模型证实它。回归模型也可能产生否定结果,这可以防止你浪费大量时间来研究无用的或会误导你的数据。

回到我们的模型:我们假设在这些变量中,每一个都会影响玩家退出游戏。使用最普遍的一种回归分析,即普通最小二乘方(Ordinary
Least Squares
简称OLS),我们假设我们可以构造一个基本的代数方程来帮助我们决定

一名玩家是否会离开游戏。使用OLS,我们的理论用代数表示如下:

(离开的玩家) = x + (y1 * 登录次数) + (y2 * 游戏时间) + (y3 *
离开的好友数) + (y4 * 获得的经验) + (y5 * 成就数)

这正是计算机可以马上解决的代数题。

首先,我们要让数值团队的人提供给我们一些信息。但在此之前,我必须提醒你,我们得到的数据样本必须是公正的、有代表性的,这一点极其重要。

新手常犯的错误是说“我想知道是什么导致玩家离开游戏,所以我们要对所有离开的玩家做一个报告。”这太糟了,因为它导致了选择性偏差。

避免选择性偏差的方法是假设你事前并不知道研究的结果。假设你一无所知,问你的数值团队成员,

“你可以做一份报告吗?让我知道七月份时,所有玩家的登录次数、游戏时间、离开的好友、获得的经验和成就。这份报告应该只包含7月1日之前就开始玩游戏的玩家,应该排除在7月份离开的玩家。哦,再增加一列a
1,表示在8月的第一周离开的玩家,或者a 0表示没有离开的。”

原因是,这个询问达到了以下三点要求:

1、与这个数据有关的所有玩家都有相同的测量值。与这个研究有关的所有玩家都运用了一整个月的数据。

2、因变量“在8月份离开”完全与自变量分离。

3、理想情况下,我们会得到大量的结果序列。我们获得的序列越多,我们借助回归分析软件来理解变量的效果就越好。

现在我们可以开始了。我假设你得到的报告就像这样:

第一个数字表示登录次数,第二个表示游戏时间(分钟),第三个表示离开的好友数,第四个表示获得的经验,第五个表示成就,最后一个如为1表示玩家离开,如为0表示玩这未离开。

然后,我们需要一款用于回归分析的软件。

回归分析软件

假设你或公司财政状况良好,那就购买统计分析软件、Stata或Mathematica吧。什么,不会用?让你的公司送你再上一次大学吧!

至于我们其他人呢,这里有一款非常实用的软件叫作“GRETL”。对于想学习的人来说,这款软件正好用。你可以下载这款软件分析我刚才给出的测试数据。

先把数据报告保存成CSV格式,然后启动GRETL。选择File | Open Data | Import
| text/CSV。指定数据分隔符,然后选择文件。

GRETL突然问你:“你需要给数据添加时间序列或面板解释吗?”我们现在选择否,因为时间序列和面板是另一节课的内容,可能不算是入门级的东西。再者,即使我的问题可能很复杂,我也会尽量先把它模拟成简单的模型,除非简单的失败了,我才尝试更复杂一点的模型。

你现在应该可以看到以下页面,其中有7个变量,包括自动产生的常量(基本上是一列数字)。

澳门金沙9159游艺场 2

gretl1(from gamasutra)

现在我们开始模拟了!从主菜单中选择Model | Ordinary Least
Squares。我们现在必须告诉Gretl我们的理论。对于因变量,选择“Cancelled_”;对于自变量,选择其他的任何选项,然后点击OK。

你应该会看到如下页面,其中有大量文本和复杂的数字。我们怎么理解这些东西呢?

澳门金沙9159游艺场 3

gretl2(from gamasutra)

对于初学者,从表格中你应该看到两点。第一,每一行数字旁边的小星号的作用是,提示你哪一行变量是最有用的——星号越多,表示越有用。

第二,看到这句“p-value was highest for
playtime”。这是提示你应该忽略图表中的哪一个变量。此时,数学告诉你,游戏时间不重要——我们不能根据游戏时间判断玩家是否打算离开游戏。

总之,任何P值接近1(或没有星号)的变量都应该从模型中除去。

为什么?我不知道;这就是你的理论派上用场的地方。可能是,有些人在决定是否离开很犹豫,所以频繁登录,反之,有些人离开得就很干脆,甚至把网站都忘记了。除非你开始做一些该领域的开创性研究,否则你不会知道这些的。这就是要拿给游戏设计或社区经理的东西!最后,你可能会发现一些有趣的东西,比如,有两种不同的游戏时间,只有一种能正确地提示玩家退出游戏的打算。但现在,我们还是忽略这个有缺陷的变量,继续往下看。

排除不和谐的变量后,再次运行模型,从主菜单中选择Test | Omit
Variables,然后选择忽略“playtime”和“experience
gained”,点击OK。你会看到如下页面:

澳门金沙9159游艺场 4

gretl3(from gamasutra)

现在你已经得到一个很棒的模型了,其中的变量都是真正有用的。每个变量都有一个真正的低P值。你设计的代数公式其实是:

(离开的概率) = 1.31132 – (0.0470642 * 登录次数)+ (0.0567763 *
离开的好友数)– (0.0795353 * 成就数)

所以我们怎么在实际中运用这个公式呢?我们来看看用曲线表示的公式的结果。从主菜单中选择Graphs
| Fitted, plot | Actual vs Fitted。你看到的图像如下:

澳门金沙9159游艺场 5

gretl4(from gamasutra)

你的模型显示了确实离开的玩家得分是0.6或更高,留下来的玩家是0.4或更低。根据这个模型,你可能想开展推广优惠活动或提供赠品给那些得分高于0.6的玩家——如果该玩家过去有大量消费的记录,也可以给他确实不错的东西鼓励他继续游戏。

总结

这就是利用回归分析能做的事。我想鼓励大家多学习,但坦白说,回归分析的某些部分确实很难学也很难教。

via:游戏邦/gamerboom.com

更多阅读:

相关文章