更好的 split 测试方法
想要更少的数据分割测试?读这篇文章!
昨天我花了大部分时间研究写分割测试的指南。
我研究着陆页分割测试和offer的数学计算,确保写的这些方法是正确的。
我最终找到了一些关于这个问题的新研究 - 而且我发现这是一个非常令人兴奋的事情。
事实证明:
a)我们通常做分割测试的方式是非常错误的,
b)使用更少的数据做的更好的,更准确!
结果如下:
(注意:如果你想跳过“为什么要这样做”部分,直接去用工具。)
#我们正在做的有什么问题
通常,我们使用像这样的计算器分割测试着陆页。这给我们数学方法来计算分割测试是否具有统计学意义,这意味着我们不会对糟糕的数据做出决定。
到目前为止,一切都很好。但是分割测试的标准统计计算有一些问题。
数据量大,样本大小未知
目前我们做的,拆分测试需要大量数据才能显现。我们倾向于建议一个LP有100个点击作为最低标准,实际上,我们通常低估:300-500差不多。
而更糟糕的是,如果您没有看到显着差异,则着陆页测试只是一直持续。没有明确的要点来阻止他们。
这意味着,通常我们最终会每100次点击一次检查我们的统计显着性,直到我们看到差异。
但事实证明,这样做是一个非常糟糕的主意。
反复测试产生大的错误
检查分裂测试是否显示是一个坏主意。
意义计算总有可能出错。如果您只是在取得明显成果的情况下停止测试,并且您多次检查,那么即使在不存在的情况下,您都会该偏好计算,以便检测显著性。
这个优秀的帖子解释了更多,并且还提供了一些漂亮的数字。
在最糟糕的情况下,您认为5%的错误几率可能会通过重复测试更接近30%的错误几率!
解决这个问题的“批准”方法是提前选择样本大小,运行样本,然后进行测试。但是,如果您使用正确的数学计算样本大小,则以这种方式进行的测试最终将非常昂贵。
如果您的转化率为10%,并且您希望在90%的时间内检测到3%或更多的转化率,例如,您需要2,206次点击来测试 - 每个正在测试的着陆页。这里有一个计算器,您可以使用这些计算器来测试样本大小 - 这是非常令人震惊的东西。
介绍:贝叶斯计算器
那么我们如何避免花钱来测试我们的LP?
那么幸运的是,实验所需的样本量是一个比联盟营销多得多的问题。事实上,医学研究比我们这样做有一个更大的问题。
试用新药并不容易或不便宜,尝试尽可能地缩小样品尺寸非常有必要。可能,你知道,人死了。
所以自八十年代以来,很多医学试验使用了比Web世界大部分使用的显著性计算更智能的统计数学。
通过使用完全不同的统计数据称为贝叶斯推理,可以更快地获得更多有用的数据。贝叶斯计算结合一个程序,对我们所拥有的数据进行数千次模拟,称为蒙特卡罗模拟 - 可以从小样本大小提供有效的概率信息,比“是”或“否”提供更精确的数据,而且你使用它们越多,越准确!
不幸的是,参与贝叶斯计算的数学很可怕。所以大多数人都忽略了。
但事实证明,这是我的大发现,实际上有一个可访问的贝叶斯计算器!
这里是计算器地址 (http://www.peakconversion.com/2012/02/ab-split-test-graphical-calculator/ )
要使用它,只需在测试中勾选尽可能多的着陆页或offer(最多4个)即可。然后,对于每个着陆页或offer,输入它接受的点击次数作来“测试”,以及它“成功”获得的转换次数。然后点击“计算”。
你会得到一些有用的统计数据,以及一个非常漂亮和有用的图表。
#数字的意思
最便捷数字是概率百分比:他们会告诉你 每个offer或着陆页 究竟 有没有成为获胜的可能。
请注意,即使是非常小的样本,计算器也会给出结果。这是纯粹的数学模型,所以没有考虑到现实世界里的一些因素。
由于你的广告不会展示给那些追求完美的访问者,最好至少有50的点击和一些转化率,之后几天小心的处理这些数据。
请记住,一个拥有63%几率的着陆页并不是一个很好的选择!这让你有37%的机会挑选了一个错误的着陆页 - 如果你打算在广告活动中花费$xxxx,机会不是很大。就个人而言,我的目标是至少达到90%。
可能转化率范围也非常有用 - 您可以将这些转化率与达到目标投资回报率所需的最低转化率进行比较。它们在图形旁边特别有用。
#图表的意思是什么?
这些图表显示了每个着陆页转换率的概率。特定百分点以上的图表越高,转化率就越高。
这给你一个很好的工具来告诉你什么时候该停止测试。你正在寻找高峰,狭窄的高峰:如果它们很明显分开,你的数字几乎肯定会显示一个着陆页很可能是最好的。如果你有非常高的,重叠的尖峰,那么很有可能你不会看到这个测试的重要结果,并且所有的着陆页或报价都是相同的 - 停止测试并尝试其他的东西。
下面的图表显示:停止测试,未来不会有所改变。
如果你看到更宽,更圆的曲线,数据还不确定 - 给它更多的时间和点击。如下图:
请记住,与传统的拆分测试不同的是,您可以尽可能多地检查这些统计信息,因此如果数据看起来不令人信服,请给多一些点击,然后重新测试。
#我们可以相信这个吗?
任何时候有人想出一个很好的理解的新方法,值得问一下这是否是一堆废话。
我对这种做法做了相当彻底的斟酌,我认为这非常合理。
使用贝叶斯模型来处理这类问题的概念是很好理解的:正如我所提到的,它可以追溯到80年代,并且 越来越多地成为“go-to”的方法 为世界各地的医疗作试验。该方法显然起作用。我还发现很多Web数据分析专家都在讨论它作为分割测试的未来。
附注:顺便说一下,我们还可以采用这种方法。医学试验使用“最小的遗憾”的计算 - 而不是概率的百分比,根据错误的程度来衡量一个加权的推荐。使用这个概念(这里不使用),可以设计一个计算器,根据您对未来的广告活动花费的预期,可以准确地告诉您何时停止测试。
计算器本身是由一个具有相当严谨的凭证的人设计的,而且(以我有限的数学知识看来)使用与RichRelevance在 本文中 讨论的 贝叶斯测试 相同的数学 。RichRelevance是与其他人一起对WalMart进行测试的人 - 他们在测试世界中是重量级人物。
我确信,将来我会用这个计算器来进行我自己的A / B测试,但是我会非常有兴趣听到你的想法,特别是比我具有数学知识的人。
“现在你知道了吧?任何问题,意见,讨论或辩论,请在下面留言!
关注 Affren
扫一扫关注我们
- 联系人:Affren
- QQ:3362259409
- QQ群:570403595
- 官方地址:https://affren.com/