文章图片
一、前言
大家下午好 , 我是张锦波 , 来自火山引擎的金融行业 , 之前是AB测试、智能发布和性能监控等几条产品线的产品负责人 。 火山引擎是字节跳动旗下的企业级技术服务平台 , 借助这个机会 , 很荣幸和大家分享字节跳动AB测试驱动分享的方法论和相关思考 。
先分享一个发生在租车公司的真实案例 。
作为方案策划者 , 或者领导的决策层 , 我们可能会遇到类似的问题:同一个目标有多种方案 , 每个方案的负责人往往各执己见 。 租车公司的案例便是如此 , 该公司希望于今年能够提升租车的转化率 , 所以在租金和押金的优化流程设计上 , 产品经理和运营经理有了不同意见 , 而老板需要考虑究竟采用谁的方案 。
文章图片
运营经理认为 , 租金和押金应当置于同一个支付页面 , 因为流程越短越好 , 一旦操作步骤增多 , 就会降低用户的使用意愿 。
而产品经理认为两个支付页面更为合理 , 应当先付租金、再付押金 , 因为当用户一下子支付了几千块钱时 , 用户的心理压力会骤然增大 。
运营经理此时依旧坚持己见:跳转等于流失 , 多一步的操作 , 多一分流失的风险 , 数据跌了 , 谁能负责任?
产品经理也不甘示弱:用户调研显示 , 许多用户都卡在了整个支付页面;分成两个页面 , 更容易降低用户对于用车成本的焦虑 。
其实这个案例暴露了几个问题:
- 于员工而言 , 如何能够有理有据、不急不躁地优雅battle , 同时有礼有节、不卑不亢地说服老板?
- 于老板而言:如何能够不偏不倚地科学决策 , 并且不让下属觉得自己“愚蠢”?
二、字节跳动如何解决问题? 1. 高度关注产品信息密度 , 持续探索更新颖更高效的方式
文章图片
字节跳动旗下有很多款大家耳熟能详的APP , 其中一些APP的产品定位便是围绕信息分发 。
人类获取信息的过程是一个消除不确定性的过程 , 或者叫信息熵减的过程 , 换句话说 , 信息分发的过程便是让人从“不明白”到“明白” 。
在整个过程中 , 我们一开始设计的APP叫今日头条——一个基础的新闻资讯类APP , 通过图文的方式来传递资讯 。 后来 , 我们解放了用户的双手与双眼 , 让看新闻变为听新闻 。
到2016年时 , 抖音横空出世 , 我们开始用短视频的方式提升知识传导的效率 。 但是伴随着Z世代与互联网原住民的兴起 , 这种信息传输没有办法满足用户强烈的交流诉求 , 于是单向的信息传输演变成了双向互动的抖音直播方式 。
而在整个演进历史中 , 字节跳动一直高度关注产品信息传递的密度 , 并在不断探索一个更新颖、更高效的方式 。 其中 , 最核心的理念是数据驱动创新、数据驱动增长 , 而AB测试就是整个理念的核心工具与载体 。
2. 把产品的决策权交给用户
文章图片
我们常被贴上了许多标签:善于增长、OKR等;而最近 , 大家会常听到字节跳动是一个做AB测试的大厂 。
字节跳动将AB测试做到了多么极致?
比如今日头条、抖音、西瓜等 , 这些产品的名字并非产品经理或者业务负责人拍脑袋、经验主义的决策结果 , 而是将不同名称的应用包上架至应用市场之后 , 通过下载率和分享率来进行定夺 , 本质上即通过AB测试的思想 , 将产品的决策权交给了用户 。
而AB测试的思想 , 深植于字节跳动的企业文化与基因中 。 上至中高层管理层 , 下至一线产品、运营人员 , 都有一个普遍共识:AB测试是一切决策的前提与基础 。 上线任何策略之前 , 先跑一遍AB测试 , 用数据说话 。
所以字节跳动从成立之初就在做AB测试 , 2016年底搭建了统一的AB测试平台 , 迄今为止累计了七十多万次实验 。 2019年底统计时只有三十万个 , 短短一年半时间内 , 这一数字翻了一倍还多 。 我们同时服务内部四百多个业务 , 每天新开的实验有1500个 , 同时运行的实验可达上万个 。
字节跳动旗下有许多款DAU过亿的产品 , 所以上述数据表明了一个概念:在这么大流量的产品上做如此多实验 , 这说明其在线实时分流体系 , 不管是吞吐力还是响应性能上都是十分强大的 。
而在技术的精进和打磨过程中 , AB测试平台也支撑了字节跳动产品的高速迭代发展 , 沉淀了海量的最佳实践和方法论 。 小到前端UI上一个按钮颜色的变化 , 再到推送文案的变化 , 运营策略、营销方案及产品功能迭代 , 甚至大到底层技术架构的变革 , AB测试都是必不可少的 。
所以在字节跳动有一句话 , 叫万物皆可AB 。
3. A/B测试的私域数字化增长
再与大家分享字节跳动在私域做数字化增长的方法论 , 通过这个方法论我们可以看见AB测试带来的核心价值 。
首先是关于私域数字增长化的目标 , 即希望提升APP的整体活跃度 。 之后再将顶层目标下拆为两部分 , 分别为自然访问和运营访问 。
自然访问指用户基于内在需求 , 自发地、主动地打开APP的行为 。 此时要求有一个有用的功能 , 或者叫有用的产品 , 产品的功能成熟完备 , 加上体验流畅、界面优美 , 才能给客户带来真正的核心价值 。
然而C端垂域基本上已为红海 , 因此只有“有用的产品”还不够 , 还需打造“有趣的灵魂” 。 因此我们有许多福利权益措施 , 并搭建了激励体系 , 加入一些创意互动的巧思 , 如AR、VR、直播技术、虚拟形象、数字人等 , 通过有用的功能、有趣的产品将用户拉回来 , 实现自然复访 。
运营访问也叫被动访问 , 指用户受到外界条件触发、被召回、被动地打开APP的行为 。 这一访问的本质与营销强相关 , 即选中合适的人群 , 通过合适的渠道 , 在合适的时间利用合适的策略实现触达、激活 。
当然支撑这些的还有两个理论基石:
- 其一为ROI最大化 , 也叫价值最大化 , 本质上体现了产品是否具有良性的、健康的商业盈利模式 , 是可持续发展的基石 。
- 其二叫规模最大化 , 指的是流量DAU或MAU , 它体现了产品可规模化复制的能力 , 是流量基石 。
- 分析能力模块:分析用户行为增长、用户画像 , 实现投放监测的分析;
- 增长能力模块:AB测试、智能发布、推送运营的平台和工具 , 以及积分裂变的激励体系融合起来 , 支撑了上面的自然访问和运营访问 。
- 建模能力模块:个性化能力和推荐算法是火山引擎擅长的模块 。
文章图片
那么 , AB测试如何提升用户的自然访问?
字节跳动内部有一个最佳实践 , 即功能的优化迭代实验加上内容推荐实验 。 比如在产品迭代发展过程中 , 通过不断的小步快跑、加速迭代 , 积跬步以至千里 , 持续进行功能迭代实验 , 找到产品与市场的契合点 , 即PMF 。 同时 , 通过信息流推荐的实验 , 不断优化UGC和PGC内容的算法模型 , 提升用户体验 , 增强用户粘性与忠诚度 , 提升用户留存 , 发挥一加一大于二的效果 。
1. 管用的功能:新手引导优化 , Aha时刻加速来临
文章图片
分享几个有意思的案例 , 先说“管用的功能” 。
我们旗下有一个APP , 产品经理通过数据分析发现 , 该产品的新老用户留存率完全不同 , 新用户的留存流失率非常大 。 后来通过行为细查、或行为路径等研究发现 , 发现新用户若在上滑操作上没有get到某个点 , 不知道如何上滑看到更多视频 , 用户错误操作几次之后便流失了 , 即没有迎来他的Aha时刻 。
Aha时刻这个概念是增长黑客里的核心概念 , 指新用户在冷启动过程中使用APP时突然“嗨”的时刻 , 该时刻的到来意味着新用户get到了产品的核心价值 , 同时与你的产品建立了感情连接与情感纽带 。 此时 , 这类用户在某种意义上已经成为了有一定忠诚度与粘性的复访留存用户 。
所以产品经理在新手转化环节的关键任务之一便是找到激发Aha时刻的关键行为和关键频次 。 在这个案例中 , 其关键行为便是上滑操作 , 让冷启动阶段的新用户能够快速看到更多视频;而通过用户看到更多视频的行为 , 我们也可以学习到用户的行为特征、兴趣偏好 , 从而以多目标、个性化推荐的方式推送用户可能感兴趣的视频 , 进而形成有效的数据闭环 。
然而很多用户在这个关键行为环节上流失了 , 那该怎么办?于是产品经理设计了一个实验 , 即将上滑操作变为半动态式的引导样式 。 这个实验上线跑了一个月 , 效果非常不好 , 上划操作的渗透率下降了百分之一 , 新用户的留存也没有显著上升 。
于是产品经理设计了第二轮实验 , 转换为全动态式的引导样式 。 这个实验跑完一个月后的效果非常显著 , 上滑操作的渗透率提升了1.5% , 新用户七日留存的提升分别在1%-1.8%不等 。
尔后产品经理联合数据分析师再进行分析 , 发现该类指标的提升贡献主要来自发达地区 。 通过用研心理学的研究 , 发现发达地区的用户本身的工作节奏快、工作强度大 , 没有太多耐心和精力在错误操作几次之后继续进行探索 , 因此用户便流失了 。 而傻瓜式的全动态式的引导样式让用户很容易知道如何观赏更多视频 , 因此这类用户的留存率便相应提升了 。
2. 有趣的灵魂:今日头条——时长任务数值策略实验
文章图片
再来说“有趣的灵魂” 。
AB测试持续地帮助产品经理和运营人员探索更多更好玩的新玩法 , 比如今日头条首页UI改版实验 , 或者叫任务时长的数值策略的实验 。 一开始 , 今日头条在用户阅读完之后才会反映金币 , 金币可以提现 。 但是产品经理发现这样的策略并不利于一些用户的体验 , 假若某些用户只看摘要 , 或者只阅读文章前几段 , 便不能被这个策略很好地激发 。
因此 , 产品经理优化了激励措施 , 通过阅读时长的衡量方式来提升奖励的发放频次 , 并基于此做了一个实验 。 对照组依然是读完再发金币 , 而实验组1、2、3上都分别有时长任务 , 只是用户反馈数值不同 , 分别为低中高数值 。
产品经理选取了三个指标 , 分属于用户留存率与总净利润上 , 希望能在用户的体验度以及收益之间做一个对冲和评估 。
上线一个月之后 , 实验组3新用户的平均使用时长与21天留存提升非常明显 , 但是在ROI最大化、即价值最大化层面上 , 总净利润也下降得较为明显 。
实验组1虽然总净利润表现不错 , 但是新用户的平均使用时长与21天留存上都没有显著上升 , 因此表现一般 。
故最后上线了实验组2 , 该实验组在各个指标上的表现都较为不错 , 能提升新用户使用时长3%左右 , 总净利润层面亦有少量提升 , 是一个相对均衡的实验组 。
3. 好看的皮囊:今日头条首页新UI改版实验
文章图片
再来说“好看的皮囊” 。
今日头条的UI原来相对偏老气 , 用户调研结果表示很大一部分用户群体主要为中年男性 。 后续 , 产品经理认为要避免幸存者偏差 , 即将用户泛化到更年轻的群体以及女性群体上 , 因此联合UED团队 , 对今日头条的首页进行了改版 。
新版的UI搜索框变得相对圆润 , 头部色值的饱和度、字体、字号、字重、上下左右间距 , 乃至底部icon等都做了非常多实验 , 在经过长期持续不断的优化迭代之后 , 最终上线了新的UI设计方案 。 而数据指标显示 , 图文类的阅读时长显著提升了1.66% , 用户贡献度主要来自一些年轻用户以及女性用户 , 这说明新的UI设计泛化是成功的 。
四、如何通过实验提升用户的「运营访问」?
文章图片
那么AB测试又是如何提升运营访问 , 即被动访问的?
其中的方法论 , 便是联合营销平台五要素打造了一个一站式的智能化运营体验 , 即选择合适的人群、合适的物料 , 通过合适的渠道、合适的时机给用户推送合适的策略 。
来看看一个典型的提活促留案例 , 在某个垂类社区上 , 我们将推送实验与推荐实验结合 , 形成了一个完备的组合拳 , 先通过推送实验方式将用户拉回 , 再通过推荐实验方式将用户留存 。
文章图片
一开始 , 产品经理与数据分析师发现 , 新老用户的留存与平均使用时长差别很大 , 为了避免幸存者偏差 , 因此要向新用户进行更好的泛化 , 便设计了一个推送实验 。
实验组1、2、3分别有不同的推送策略或推送时机:
- 实验组1:每天早上和中午进行推送;
- 实验组2:每天中午和下午进行推送;
- 实验组3:每天早午晚都进行推送 。
而实验组3中的用户感到自己被频繁地打扰 , 甚至引发了许多卸载行为 。 因此最终全量上线的是实验组2 。
然而如何将用户拉回的同时实现留存?此时便需要匹配个性化推荐实验 。 通过研究新老用户的的平均使用时长 , 算法工程师于一开始在冷启动阶段给新用户不进行任何个性化推送 , 上线了一个个性化推荐模型的1.0版本 , 发现APP的使用时长与APP的点赞评论渗透率分别提升了59%-81%不等 , 达到了一个不错的效果 。
之后算法工程师进行了下一步优化 , 加入了更多的一些特征、一些时事热点之后 , 形成了个性化推荐的2.0模型 , 发现2.0模型在APP使用时长与点赞评论渗透率上又分别提升了8.4%和18.2% , 效果喜人 。
文章图片
五、A/B测试核心价值
文章图片
而除了提升用户的自然访问和运营访问 , AB测试平台同时也给字节跳动To B的各条业务线带来了许多核心的价值收益 , 比如提活促留、业务创新、收益提升、降本增效等 。 而在产品的整个迭代研发过程中 , 可以通过AB测试帮助降低试错和创新成本 , 激发创新潜能 , 快速找到新的业务增长点 , 逐步地形成迄今为止最优的产品形态和产品定位 。
对于管理层 , AB测试也有很大助益 。 通过正交试验等多种工具 , 业务部门能够精准衡量新策略、或者新功能对大盘整体的一个业绩贡献度 , 比如汇报时 , 就可以通过AB测试提供准确的数据依据和科学度量 。
那字节跳动是如何把AB测试打造成一款To B的尖峰产品的?
先看看To B的AB测试的核心能力 。 首先在对内AB测试的平台基础之上 , 它泛化、扩充了许多有用的、降本增效的、场景化的特型实验模板 , 同时也丰富了实验报告评估和分析的各种模型 。
1. 推送实验 , 营销增长的有力武器
文章图片
【解决方案|AB测试驱动业务增长】第一个实验模版结合了自动化营销的工具 , 叫推送实验 。
以电商case为例 , 可以根据用户的活跃期限 , 在流失拐点到来之前 , 结合营销与AB实验的方式 , 在首购、复购或者唤醒沉睡用户的环节当中 , 比如优惠券推广、折扣推送、购买加购之后的激活、或是猜你喜欢等一系列的推送策略上做一些实验 。
同时 , 在推送平台、推送渠道、推送时机、推送标题、文案内容 , 甚至是推送落地页、提醒方式、目标受众等 , 都可以进行策略实验 。 当然 , 我们也允许多个策略之间进行全组合 , 看看哪种组合策略可以最好地触达用户 , 拥有更好的转化率 , 也能结合AI控流的方式;同时也可以用文案循环、策略循环的方式去更好地激活、促留客户 。
2. 可视化建站实验 , 无需编码 , 人人皆为实验官
文章图片
第二个实验模版叫可视化进展实验 。
在研发资源有限的公司 , 整体的迭代效率相对较差 , 而可视化进展实验模版不需要研发人员介入 , 无需编码 , 人人皆可成为实验官 , 通过拖拉拽等可视化的方式 , 直接将文案、图片、颜色等进行编辑和变更 , 甚至新增或删除元素等 , 都可以通过可视化方式解决 , 因此特别适合于广告、活动H5、推广落地页上做UI的局部调整 。
而这样的一个实验 , 极大地降低了实验成本、操作成本和理解成本 。
3. 多链接合并实验 , 落地页赛马不再难
文章图片
第三个实验模版为多链接合并实验 。
可以看看这个案例 , 在火山引擎官网上线火种计划时 , 我们做了两个不同页面 , 一个带火种 , 一个不带火种 。 如果要进行大的页面布局改动、或者画风不一样的落地页时 , 便推荐使用多链接合并实验 。 这一实验指投放同一个入口 , 跳转之后在内部进行重定向其他页面 , 再来评估不同页面的整块效果 。 最终评估结果显示 , 带火种计划的落地页转化率效果是最好的 。
由此可以看出 , 多链接合并实验或重定向实验适用于首页网页的大改版 , 或者节日大促时活动页的自动优选 , 或者鉴别多渠道落地页推广的广告实验中哪一个策略最优等情况 。
同时 , 还有其他实验模板 , 比如说客户端或服务端的编程实验可以解决所有实验场景下的问题;也有科学度量实验 , 帮助在公域投放的过程当中解决策略评估的问题 。
4. 丰富的实验报告 , 全面洞察数据
文章图片
整个实验的最后一公里、最重要的一个环节 , 能够直接影响实验的决策者 , 因此需要科学、准确、客观、全面的实验报告 , 否则就会导致以偏概全 。
因此底层基于假设检验和贝叶斯的统计学理论 , 提供了非常丰富的实验分析模型 , 比如说多维修正、多重比较修正、概率分布、盒须快照、分时趋势/累计趋势、转化漏斗、P-value MDE置信区间等 , 甚至在进组用户方面 , 可以进行群体画像洞察 , 也可以将用户切成同期群下的不同活跃矩阵 , 进行分析 。
而这些实验分析模型 , 可以让所有变化无所遁形 , 因此让决策者的决策链更清晰完备 。
5. 从例行运营工作彻底解放:智能流量动态调优实验
文章图片
再分享一个有用且有趣的功能 , 即智能流量动态调优 , 内部叫AI控流 , 或者叫MAB 。
这一功能适合与时间强相关的实验 , 比如618大促活动中 , 一些推送运营活动实验为期只有7天 。 如果上一个经典的固定流量实验 , 7天结束之后 , 多个实验策略确实指出了谁为优胜者 , 但是最佳时间窗口已经过去了 。
因此这个理念提出的课题便是 , 希望能实时地根据用户反馈进行智能化调配流量分配 , 动态地进行赛马 , 保证实践期间收益的最大化 。 故此 , 本质上为double E的问题 , 即在快速发现并收敛至最优的实验组策略 , 以及探索可能出现的更优实验中实现平衡 。 而底层利用的就是贝叶斯的理论 , 实现零时间成本、零分析成本、零人工介入方式实现智能化、自动化的流量调优 。
而MAB技术或者能力非常适合运营推送文案的赛马、落地页动态优选、MVT多变量智能组合择优、广告投放策略自动优选 , 以及许多想做多组合元素的智能择优的策略 。
6. 小游戏送元宝的MAB实验
文章图片
举一个MAB应用到游戏领域的例子 。 游戏往往会建立一套完善的激励措施或激励体系 , 这个游戏便通过发元宝的激励召回了流失用户;而运营人员设计了四组文案 。 哪组文案跑量最好?
一开始 , 四组文案均分 , 流量迭代调优之后 , B、D汇集了大部分流量;C有小众偏好 , A的转化率非常低 , 惨遭淘汰 。
于是通过一个MAB实验 , 可以看到 , 对比经典的均分流量实验 , 该实验整体点击率提升了9.2% , 因此活动期间 , 收益已经相对客观 。
7. 最后老板采用了谁的方案?
回到一开始埋下的那个伏笔 。 在租车公司案例中 , 产品经理与运营经理发生了激烈冲突 , 大家各执己见 。 那么最终 , 老板的解决方案是什么?
文章图片
就是AB测试 。 既然无法判断谁更有理 , 那便“是骡子是马 , 先拉出来溜溜” 。
因此跑完了一个月的实验过后 , 产品经理的策略——租金与押金分为两个页面——胜出了 , 看似违背了运营常识、拉长了整个运营流程 , 但最终 , 下单的完成转化率提升了1% , 带来了可观营收 , 而数据结果也让运营经理心服口服 。
跳出AB测试的讨论 , 其实AB测试与其他的数据产品匹配起来才能发挥其更大价值 。
如一站式全域数据智能营销平台 。 该平台目的是帮助运营人员实现数字化、自动化、智能化的运营 。 上面的流量地图解决了“看什么”的问题 , 即where we are 。 通过用户行为增长分析工具搭配 , 提供整体流量运营指标展示、外部流量转化效果展示、APP触点互动效果展示 , 以及运营效果展示等 。
第二步解决了“做什么”的问题 , 该部分即数据营销地图的自动化部分 , 基于底层全域客户数据的画像平台、或叫旅程平台 , 以及上面的智能流量运营工具、营销平台 , 再结合物料库、客群库和策略库 , 提供自动化的能力 。
策略优化部分解决了智能化的部分 , 基于AB测试 , 以及个性化的、千人千面相关的算法和能力 , 提供了基础的决策引擎 。
上述便是我们一站式的数字化、自动化、智能化的运营体系 。
六、结语
最后分享一点个人感想 。
AB测试是一个非常有用的工具 , 但也仅仅是一个工具而已 , 它没有办法告诉产品经理用户的真实诉求是什么 。
但是同理心可以 。 同理心可以让产品经理与用户共鸣甚至感同身受 , 因此没有同理心的产品 , 必然是一个无用的、没有灵魂的产品 。
但是仅有同理心并不够 , 同理心只能让你的产品是有用的;若想做出一个杰出而伟大的产品 , 你还需要有想象力 , 结合想象力为产品插上腾飞的翅膀 。
因此2019年3月份时 , 一鸣在字节跳动成立七周年大会上说了这样一句话:
这么多年 , 我一直深以为然 , 这大概就是新互联网时代 , 互联网人一种务实的浪漫主义;或许AB测试、以及其他一些理论基石 , 是未来解锁产品经理之门的一把钥匙 。
相关阅读 2021全年大会排期预告
2021产品经理大会北、上、广、深、杭 5 城巡回进行中!!!与腾讯、阿里等大厂实战专家一起 , 分享实践案例 , 探索行业趋势 , 提升个人能力 , 解码产品经理未来!
扫描下图二维码进全年大会专属咨询群了解详情!今年最后3场产品经理大会 , 广州、杭州、深圳站即将开幕!抢票速来!
本文为【2021年产品经理大会·北京站】现场分享整理内容 , 由人人都是产品经理运营 @Aine 整理发布 。 未经许可 , 禁止转载 , 谢谢合作
题图来自大会现场
推荐阅读
- 于本|豆瓣 App 安卓新版本 7.20.0 测试
- 解决方案|【干货】反渗透设备结垢原因及解决方案
- 解决方案|三菱重工AirFlex:全屋恒温,暖意守护安全工作
- 测试|图森未来完成全球首次无人驾驶重卡在公开道路的全无人化测试
- 测试|北京:自动驾驶测试里程突破365万公里
- OriginOS|当硬件驱动力逐渐放缓,手机还能更快吗?
- 解决方案|蓝思科技:两智能制造项目入选工信部示范工厂揭榜单位和优秀解决方案榜单
- 产品|国内首家提供EMI解决方案及产品供应商签约,提供EMI IC、PMIC等产品
- 技术|悦鲜活高端瓶装鲜奶市占第一 科技驱动营养再升级
- 平台|数梦工场助力北京市中小企业公共服务平台用数据驱动业务创新