什么是A/B测试?2019年初学者指南

2019年2月18日

当你需要一个简单而强大的方法来提高网页的转化率时,a /B测试是你最好的选择。对吧?

这是当今许多营销人员的看法。虽然A/B测试在一定程度上是正确的——它确实可以帮助你极大地优化网页设计——但它远没有看起来那么简单。

什么是A/B测试?

A/B测试是一种为优化提供信息的数据收集方法。它比较了一个设计的两个版本:原始的“a”版本,被称为“控制”,和次要的“B”版本,被称为“变体”。

如果遵循了合理的实验设计规则,那么在测试结束时,测试人员就会知道哪种设计更适合特定的目标。

提示:了解最好的A/B测试工具并从真实用户评论中比较最受欢迎的供应商。

A/B测试是如何工作的?

基于前面的定义,以及网络上无数的A/B测试案例研究,你可能会认为A/B测试很简单。尽管这个概念相当容易掌握,但是测试您获得有价值结果的方法要困难得多。

那么,A/B测试是如何运作的呢?简单来说就是:你以相同的目标为两个页面带来相同的流量,表现更好的那个是赢家:

A / B-Testing-example

如果你基于简短的版本进行测试,你可能会发现你创造了什么似乎比如对原始设计的改进。不过,这种改善很有可能是虚幻的。

为了获得准确的测试结果,您需要了解更大的情况。以下是A/B测试需要考虑的最重要的方面。

何时使用A/B分割测试

A/B测试是一种强大的方法,能够告知有意义的设计改进。但它经常被误用。A/B分割测试对你有意义吗?考虑以下几点。

只有在您的业务准备就绪时才进行测试

对于许多企业来说,A/B测试不应该是优先事项。还有比A/B测试更重要的事情需要关注,比如流量。Derek Halpern解释道:

“如果我的网站吸引了100人,而我有20%的转化率,这意味着我有20人的转化率……我可以试着把转化率提高到35%,让35人转化,或者,我可以想办法获得1000名新访问者,保持20%的转化率,你会发现1000人(200人)中的20%远高于100人(35人)中的35%。”

那么,你如何知道自己何时准备好进行A/B测试呢?在一个博客帖子的Instapage, Alex Birkett分享了一个基准:

粗略地说,如果你每个月的交易(购买、注册、潜在客户等)少于1000次,你最好把精力放在其他事情上。也许您可以在几个月的时间里运行大约500个事务的测试,但您需要一些大的提升才能看到效果。

A/B测试的替代方案是什么?

你每个月产生至少500个交易吗?如果不是,你最好使用定性反馈来指导设计,而不是定量反馈。这些包括但不限于:

1.调查技术

调查是一种很好的方法,可以从用户身上发现你的业务做错了什么。净评分这只是经常用于商业决策的流行调查的一个例子。有很多测量软件为希望进行NPS或其他问卷调查的品牌提供在线应用程序。

2.即时聊天

就像调查,实时聊天软件让你直接从你的客户那里听到,他们不喜欢你网站的哪些方面。与调查不同的是,实时聊天具有上下文相关的额外好处,这意味着你可以获得关于潜在客户何时何地遇到问题的额外细节。

3.眼球追踪和热图

眼球追踪研究和热图也可以是很好的定性数据来源,当你没有产生很多流量时。热图软件显示用户眼睛和鼠标的运动,甚至可以跟踪给定页面的滚动深度。

例如下面的热图,帮助公司实现高质量的图片应该是他们产品页面的重点。

热图测试

4.用户记录

这些特别有用,因为观察它们有点像从用户的肩膀上观察。在一个选定的网页上,你可以看到鼠标移动到哪里,鼠标悬停在什么上面并点击。

当您没有足够的流量可以依赖时,像上面这样的定性数据可以帮助您了解最佳实践之外的设计。与A/B测试一样有价值的方法是会话重播甚至可以更甚。

如何不进行A/B测试

许多博客文章和案例研究建议测试一种元素和另一种元素。例如,在一个相同的页面上,标题一和标题二。或者,图像vs视频。这样,在考试结束时,你就会确切地知道改变答案的原因转化率

然而,A/B测试最适合找到所谓的全球最大.从基本意义上讲,全局最大值是您试图实现的最佳通用设计。你最好A/B测试完全不同的设计。多变量测试,另一方面,最适合在页面上找到元素的最佳组合。

举个例子,来自MarketingExperiments团队在Investopedia的注册页面上。这是对照组:

control-multivariate-testing

相对于变异:

Variation-split-testing

这种变化使转化率提高了近90%。现在,因为控制组和变异组之间发生了多次变化,所以营销实验无法知道完全为什么这个页面表现得那么好。但是,如果你将转化率提高了90%,你还会在意吗?或者你会简单地接受这个设计并运行它吗?

很可能是后者。然后,您将使用多变量测试来确定哪些元素组合可以进一步改善这个通用设计。

运行A/B多元测试的步骤

我想你已经准备好了A / B测试?下面是一些可以遵循的步骤。

但是,请记住,这个列表并不详尽。在你开始第一次考试之前,有很多东西要学。每一部分都可以是他们自己的博客文章。可以把这看作是方法的基本概述。

1.从数据开始

没有理由不要测试。这是初学者常犯的最大错误之一。他们测试不同的标题或cta,因为他们看到它适用于其他业务。但是,那不关你的事。

你面临着独特的挑战,由独特的数据显示。你的分析告诉你什么?

例如,假设您使用一个多步骤表单。人们在第一页就开始转变,但在第二页,就有一个很大的下降。在这种情况下,你可能会发现你需要重新安排你询问信息的顺序,或者,如果这些信息不是完全必要的(比如电话号码),就把它们都删掉。

其他企业可能已经对此进行了测试,您可能会得到一些基于他们的结果进行优化的想法。但是,您不应该仅仅因为某个东西对其他人有效就对它进行测试。你的业务问题和数据应该构成测试的基础,而不是别人的。

2.提出假设

从这个理由到检验,由数据产生,就可以形成你的假设。你的目标是什么?你如何努力去提高它?

在这种情况下,你可能会说,“在观察到访问者在第一步之后放弃了我们的注册流程后,我相信在流程的最后请求电话号码可能会提高它被填写的可能性,并最终导致更多的注册。”在你的测试的结论,你应该能够接受或拒绝这个假设。

3.调整你的变化

现在,您可以将新的假设转换到变体页面。如果你要重新安排注册流程,那就按照你的变化来做。如果你在测试视频和长格式的副本,可以添加视频等。

4.确定所需的样本量

这就是事情开始变得有点复杂的地方。当你看到转化率的差异时,你可以简单地为你的页面增加流量,并宣布你是赢家。

在结束测试之前,您必须引导足够多的访问者,以确保您的数据尽可能接近准确。可以这样想:如果您只驱动三个访问者访问控件和变量,那么控件可能会转换所有三个访问者,而变量则不转换任何一个访问者。原始版本的转化率为100%,而变体版本的转化率为0%。

这是否意味着你的变体注定要失败,而你的原作注定要完美?不。

这意味着你需要收集更多的访问者来获得更准确的数据。你可以开始相信你所看到的数据的点是当你到达所谓的统计显著性.这个数字包含几个因素:您希望对结果有多自信(置信度),您希望在页面之间检测的转化率差异(最小可检测效果),以及您的原始转化率。

你想要的越准确,你就需要更多的访问者访问你的页面。初始转化率和最小可检测效果会因团队而异,但你应该对置信水平低于95%的测试保持警惕。低于此值,您不妨跳过测试过程,只是猜测。

来决定你的样本大小在美国,有很多很棒的计算器。这是埃文·米勒写的

5.帐户有效性威胁

你的测试不是在实验室进行的。它们是在现实世界中由真实的人在真实的人身上运行。正因为如此,它们的有效性面临威胁。

例如:

均值回归指当您长时间运行测试时发生的一种现象。你运行的时间越长,你的结果就越接近平均范围。

想想上面的例子,两个登陆页面的转化率分别为0%和100%。当你为每个页面吸引更多的访问者时,100%的转化率就会下降,0%的转化率就会上升。如果你让它们运行,这两个都将接近平均值。但是,如果您提前进行测试,您可能会错误地认为原始测试比变体更好。

  • 新奇效应指可归因于新事物的结果。想想,例如,一个营销人员改变了网站上CTA按钮的颜色。新的颜色可能会吸引更多的关注和点击,但原因可能是变化的新奇性。这也可以通过长时间运行测试来控制。
  • 选择效应指当测试人员没有使用测试人员受众的准确表示进行测试时产生的有效性威胁。这就像将流量从Snapchat等年轻受众的社交媒体平台,引向一个针对年长专业人士的登录页面,比如一个提供残疾保险的网站。

在整个考试过程中,以及在考试的开始阶段,还有更多的问题需要考虑。例如,仪表效应是对你的有效性最常见的威胁之一。它指的是你的工具出了问题。

为了防止这种情况,确保你的登陆页面在所有设备和浏览器上看起来都是一样的。在你开始测试之前,确保分析能够正常工作,你的像素能够正常工作。

有些人甚至进行A/A测试来校准他们的测试工具,其他人则认为这是浪费时间

6.为你的页面增加流量

一旦你完成了这些步骤,你就准备好开车了。记住选择效应:两个页面的流量应该是受众的准确样本,而且应该来自相同的来源。不同平台的受众差异很大。

如果你已经选择了你的来源,你在预测试计算中确定了两者登陆页面(原创和控制)。而且,如果你在不到一周的时间内达到这个数字,那就继续测试。

为什么?

一周中的天数对转化率有很大的影响。有些时候,你的访问者会比其他人更容易接受你的营销信息。

如果你已经达到了样本大小,并且运行了至少一周的测试,同时还要考虑可能会破坏数据的混淆变量,那么是时候查看结果了。

7.分析优化

当你在选择的置信水平上达到统计显著性时,就该进行分析了。哪个页面表现更好?为什么?

请记住,如果您将最小可检测效果设置为10%,则无法确定是否有任何变化在该范围内。

如果恰好两个页面之间存在10%或更多的差异,那么您可以有95%的把握认为您的调整就是原因所在(如果您考虑了所有这些有效性威胁的话)。

那么,这是如何构成新测试的基础的呢?

这是你的工作。保持测试。你的设计总会有更好的版本。

准备好学习更多A/B测试方法了吗?了解最好的阴极射线示波器软件2019年来自真实用户。

不要错过任何一篇文章。

订阅,让你的手指紧盯科技脉搏。

提交此表格,即表示您同意接收来自G2的营销通讯。
Baidu
map