好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

美团配送AB评估体系创办与实践.docx

14页
  • 卖家[上传人]:凯和****啦
  • 文档编号:258540228
  • 上传时间:2022-02-23
  • 文档格式:DOCX
  • 文档大小:23.65KB
  • / 14 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 本文格式为Word版,下载可任意编辑美团配送AB评估体系创办与实践 【实践案例共享】美团配送 A/B 评估体系创办与实践 2022 年 5 月 6 日,美团正式推出新品牌"美团配送',发布了美团配送新愿景:"每天完成一亿次值得相信的配送服务,成为不成或缺的生活根基设施'现在,美团配送已经服务于全国 400 多万商家和 4 亿多用户,笼罩 2800 余座市县,日活跃骑手超过 70 万人,成为全球领先的分钟级配送网络 本文从评估体系创办的理由开头入手,重点阐述了美团配送技术团队在 A/B 评估体系构建过程中的一些斟酌和概括的实践,包括如何建立完备的指标体系、如何建立科学权威的评估方式等等梦想能够给大家一些启发和扶助 即时配送的三要素是"效率'、"本金'、"体验',通过精细化的策略迭代来提升效率,降低本金,提高体验,不断地扩大规模优势,从而实现正向循环但是,策略的变更,不是由随意"拍脑袋'得出,而是一种建立在数据根基上的思维方式,数据反应会报告我们做的好不好,哪里有问题,以及衡量可以带来多少确定性的增长 而 A/B 测验就是精细化迭代的一个"利器',通过为同一个迭代目标制定两个或多个版本的方案,在同一时间维度,让组成成分一致(或好像)的 A/B 群组分别采用这些版本,然后收集各群组的体验数据和业务数据,结果分析、评估出最好的版本,扶助我们作出正确的决策,使迭代朝着更好的方向去演进。

      基于此,构建一个适用于配送业务的 A/B 平台就应运而生了 1. A/B 平台简介 平台简介 如上图所示,A/B 测验可以看作一个"无尽'的学习环,我们通过提出假设、定义告成指标、检验假设(A/B 测验)、分析学习、发布、建立另一个假设,这就形成一个完整的闭环,通过多轮测验迭代,使策略趋于更优基于上述对 A/B 测验划分的 5 个步骤,我们将 A/B 测验的完整生命周期分为三个阶段: 测验前,提出该测验假设,定义测验告成的指标,确定分流策略; 测验中,即验证假设的阶段,根据配置阶段的分流策略举行分流和埋点上报; 测验后,举行测验分析与学习,并基于测验报告抉择是否发布 按照功能划分,我们将 A/B 平台分为三个模块,测验配置管理模块、分流以及埋点上报模块和分析模块,分别对应于 A/B 测验生命周期的测验前、测验中和测验后三个阶段 在测验配置模块,用户可以基于测验前提出的假设、定义的告成指标快速创造测验,并基于特定的分流策略完成分流配置;分流以及埋点上报模块,供给 JAR 包接入的形式,异步获取测验配置举行本地分流计算和埋点上报;分析模块,依据用户在测验配置管理模块选取的用于说明测验效果的指标、分流埋点上报模块记录的日志,自动地产生各测验的测验报告,供测验查看者使用,然后根据测验效果扶助他们作出正确的决策。

      概括流程如下图所示: 2. 为什么要强调评估体系创办 为什么要强调评估体系创办 2.1 分流业务场景需要 分流业务场景需要 业界的 A/B 平台创办根本以《Overlapping Experiment Infrastructure: More, Better, Faster Experimentation》这篇论文为蓝本举行开展, 引入分层模型以及在分流算法中参与层编号因子来解决"流量饥饿'和"正交'问题,并且通过引入域的概念,支持域和层之间的相互嵌套,使分层测验模型更加生动,进而得志多种场景下的 A/B诉求如下图所示,将流量通过 Hash 取模的方式即可实现流量的平匀划分 这种是面向 C 端用户举行流量选择的传统 A/B 测验,采用上述的分流方式基于这样的假设:参与测验的流量因子是相互独立的、随机的,按照独立同分布但是,配送业务场景下的 A/B 测验,涉及到用户、骑手、商家三端,苦求不独立,策略之间相互影响并且受线下因素影响较大 传统 A/B 测验的分流方式,无法保证分出的两个群组测验组和对照组的流量都是无区别的,无法制止因流量调配不平衡而导致的 A/B 群组差异过大问题,很轻易造成对测验结果的误判。

      为得志不同业务场景的诉求,我们的 A/B 平台创办采取了多种分流策略,如下图所示: 针对策略之间的相互影响、苦求不独立场景下的 A/B 测验,我们采取限流准入的分流方式,针对不同的测验,选取不同的分流因子在测验前,我们通过 AA 分组,找出无区别的测验组和对照组,作为我们测验分流配置的依据,这种分流方式要求我们要有一套完整刻画流量因子的指标体系,只要刻画流量因子的指标间无统计显著性,我们就认为分出的测验组和对照组无区别 2.2 业务决策的重要依据 业务决策的重要依据 在测验后的效果评估环节,通常允许测验者用自定义的指标来衡量不同策略带来的影响但这样做会带来如下两个问题: 首先,由测验者来负责测验效果的评估,很难做到客观同时也无法制止测验者仅仅选择支持自己假设的指标,来证明自己的测验结论; 其次,全体的策略迭代都是为业务服务,假设测验者用自定义的、与业务认知不一致的指标,来说明测验效果、推动业务灰度,这种方式往往难以被采用 因此,权威的评估体系对于对齐大家认知,并扶助我们在策略迭代方面作出正确的决策,尤为重要 3. A/B 评估体系构建 评估体系构建 A/B 评估体系的构建,要解决 A/B 平台两个核心问题:第一,要有一套用于刻画流量因子(区域、骑手、商家)的权威的、完备的指标体系,扶助测验者完成测验前的 AA 分组和测验后的效果评估;其次,要建立一套科学的评估方法,扶助测验者作出正确的决策。

      3.1 权威完备的指标体系 标体系 指标的权威性表达在:刻画分流因子,用于测验前 AA 分组和证明测验假设的指标,务必经过治理且业务认知一致,这样才能对齐认知,使得测验结果更具压服力;指标的完备性表达在:评估体系中的指标,不仅要有经过第三方独立生产治理且各业务方认知一致的治理指标,而且还要有测验者为了更全面的分析,描述测验过程,自定义的探索指标 整体架构 整体架构 治理指标强调的是指标的权威性和生产的模范性,而探索性指标强调的是指标的多样性和生产的生动性在评估体系中要实现这两类指标的统一,既要包含用于说明测验效果的治理指标,又要包含扶助测验者更好迭代测验所需的探索指标 为实现上述的统一,指标层面要有分级运营的策略:治理指标按照业务认知一致性和算法内部认知一致性分别定级为 P0、P1,这一类指标在生产前务必要有严格的注册、评审,生产环节需要交给独立的第三方团队(数据团队)生产,保证指标的权威性,产出后打通指标与字段的映射关系,对用户屏蔽底层实现规律;对于探索性指标,定级为 P2,强调的是生产的生动性和快速实现,因此,它的生产就不宜带有指标注册和评审等环节 为保证其快速实现,梦想基于物理表和简朴的算子配置就可以实现效果分析时即席查询使用。

      基于如上的问题拆解,我们举行了如下的架构设计: 数据集成 数据集成 为了支持监控和分析,在数据集成环节,我们集成了测验配置数据、业务数据和染色数据,以便测验者在效果评估环节不仅可以查看流量指标(PV、UV 和转化率),也可以深入探索策略变动对业务带来的影响 对于那些在测验配置环节不能确定流量是否真正加入测验的场景(例如:选择了特定区域举行测验,该区域产生的单只有得志特定条件时才能触发测验),我们不能直接通过限制确定的区域来查看业务指标由于此时查看的指标并不是真正参与测验的流量所对应的指标因此在数据集成环节,我们同时将测验前的测验配置数据和测验中的染色数据(针对每个参与测验的流量,每次操作所产生的数据,都会打上测验场景、测验组以及概括的分组标记,我们该数据为染色数据)同步到数仓 在数据基建环节,将业务数据模型和染色数据模型通过流量实体作为关联条件举行关联,构建测验粒度模型 数据基建 数据基建 在数据基建层,我们基于指标分级运营的思路,由数据团队和算法团队分别构建实体粒度(区域、骑手、GeoHash)和测验粒度的实体宽表模型,以得志 P0/P1 指标和 P2 指标的诉求;为实现指标的模范化创办和生动创办的统一,在物理模型和对外供给应用的指标池之间,我们供给了元数据管理工具和模型配置工具,从而实现离线数据快速接入评估体系的指标池。

      由数据团队创办的实体宽表模型,对应着治理指标(P0/P1 指标),务必在生产后通过元数据管理工具完成指标与物理字段的映射,将指标的加工口径封装在数据 层,对用户屏蔽物理实现,确保治理指标的一致性由算法团队独立创办的实体宽表模型,对应着挖掘指标(P2 指标),为确保其接入评估体系指标池的生动性和便当性,我们在数据基建环节,通过标签的形式对指标口径做片面封装,在模型配置环节完成指标规律的最终加工 元数据管理 元数据管理 元数据管理层,是实现指标权威性的关键治理指标在本层实现注册、评审,达成业务认知一致性和算法内部认知一致性的目的同时,本层还完成了治理指标与数据基建层物理模型之间的绑定,为后续的模型配置建立根基 模型配置 模型配置 模型配置工具,是打通物理模型与评估指标池的桥梁,它通过输入组件、操作组件和应用组件,将离线数据接入到评估体系中,得志测验前 AA 分组和测验后 AB 评估的需求首先,输入组件可以对应不同的数据源,既可以接入治理的离线指标,也可以接入特定库下的物理表其次,操作组件供给了分组操作、算子操作、过滤操作和测试操作,通过分组操作,确定模型包含的维度;通过算子操作,将算子作用在指标或标签字段上,在取数环节实现指标的二次计算;通过过滤操作,实现数据的过滤;通过测试操作,保证模型配置质量。

      结果,应用组件可以将配置的模型注册到不同的应用上,针对 A/B 场景主要是 AA 分组和 AB 评估概括接入流程如下图所示: 3.2 科学权威的评估方式 科学权威的评估方式 评估报告的稳当和权威性主要表达在两个方面:一是评估指标的稳当性和权威性;二是评估方式的科学性在上一节中,我们重点议论了如何构建稳当权威的指标体系在这一节,我们重点议论如何举行科学的评估 在议论科学评估之前,我们再重温一下 A/B 测验的定义:A/B 测验,简朴来说,就是为同一个目标制定两个版本或多个版本的方案,在同一时间维度,分别让组成成分一致(好像)的 A/B 群组分别采用这些版本,收集各群组的体验数据和业务数据,结果分析、评估出最好版本,正式采用其中 A 方案为现行的设计(称为操纵组), B 方案是新的设计(称为测验组)分析 A/B 测验的定义,要实现科学权威的评估,最重要的两点在于: 第一,确保在测验前分出无区别的测验组和对照组,制止因流量调配不平衡导致的 AB 群组差异过大,最终造成对于测验结果的误判; 其次,确保对测验结果作出切实的判断,能够切实的判断新策略相对于旧策略的优势是不是由自然波动引起的,它的这一优势能否在大规模的推广中反映出来。

      无论是测验前确保测验组和对照组流量无显著性差异,还是测验后新策略较旧策略的指标变动是否具有统计上的显著性,无一例外,它们都蕴含着统计学的学识接下来,我们重点论述一下 A/B 测验所凭借的统计学根基以及如何依据统计学理论做出科学评估 假设检验 假设检验 两个假设 两个假设 A/B 测验是一种比较试验,我们圈定确定的流量举行测验,测验终止后,我们基于测验样本举行数据统计,进而验表明验前假设的正确性,我们得出这一有效结论的科学依据便是假设检验假设检验是利用样本统计量估计总体参数的方法,在假设检验中,先对总体均值提出一个假设,然后用样本。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.