数据分析入门与实战  公众号: weic2c


作者简介​Kener-林峰,北邮计算机,国家重点实验室交换与智能控制研究中心,前百度资深研发工程师,凤巢业务系统前端技术leader,数据可视化领域,ECharts作者。15年3月离开百度,以联合创始人兼技术总监的身份开启了一段餐饮方向的创业旅程。


*ECharts:商业级数据图表,一个纯Javascript的开源图表库,国内目前应用最广泛,也是唯一一个入选全球开源项目榜中数据可视化板块的开源项目,该榜单中其关注度排名位列全球第四。


前言

作为一个一直在数据领域里折腾的码农跨界乱入了餐饮行业,从可视化开发到真枪实弹的用可视化去做业务分析,辅助运营甚至作为公司运营决策的依据,这段经历让我更真切的体会到数据的价值。我希望用这个系列文章记录下过去一年时间自己做过的一些事情,虽然内容源于如何在餐饮外卖行业中利用数据驱动实施数据化运营,但相信跟很多行业都有共通之处,从交易订单的分析下沉至订单所包含的商品或服务销售分析乃至用户交易(活跃)行为所反应出来的留存流失情况,很多模型和方法应该都是通用的。沉淀即成长,这个系列的成文已经是我最大的收获,如果他还能给大家带来一点启发甚至得到同行朋友们的指教将是我莫大的荣幸,非说教不权威请按需索取:

  • 餐饮外卖中的数据化运营需求和现状(非餐饮行业请跳过)

  • 构建一个能够洞察数据的“数据大脑”

  • 业务风向标—订单量、客单价、成交额、各种聚类分布

  • 商品晴雨表—销售分析、波士顿矩阵(BCG Matrix)、留存流失指数

  • 用户群分析—基本属性、RFM模型、留存率Cohort Analysis(同期群分析)


1、餐饮外卖中的数据化运营需求和现状

前两年大家还在说大数据,大数据时代,大数据专家…不管什么只要跟数据沾边都得贴上“大数据”方显尊贵,现如今大家已然听腻了,而这个词也被用烂,更潮的数据科学家们开始使用“机器学习”、“人工智能”,强调更多的是从“后验”式的“数羊结果”到“先验”式的“先知预测”,这是数据科学不断前行的成果。但其本质没变,存在以来就没变,依旧还是“​了解过去,分析现在,探索未来​”,这是数据科学最强有力的“功效”,也是“数据驱动”的思想被应用到各行各业的根本原因。


就像现如今的互联网企业里,“数据驱动”已经贯穿了每一个产品的整个生命周期,从产品调研、研发、测试、小流量/全流量上线、运营落地、迭代优化AB Test以及无时无刻的各项监控和数据报表,虽然不是每一家公司在每一阶段都能做得很好,但他们都从未停止过“​用数据说话​”的努力,这是因为“​数据辅助决策​”这科学的方法已被实践证明是行之有效的。


在餐饮行业也绝不例外,数据驱动、数据化运营的思维方式和工具正被越来越多餐饮企业所接受和使用。而且我相信在每一位老板的脑袋里一直都有一个“算盘”每时每刻都在盘算着自己门店的运营情况,但遗憾的是​绝大部分的老板真真的只是把“算盘”存放在脑袋里,凭一己脑力支撑着门店的各项运营​,我想这也是为什么在餐饮行业里大家从未停止过听到这样的困惑:“一家店盈利,三家店打平,再开下去就亏了”,或许是时候用更科学的手段把这个“算盘”从脑袋里拿出来,让计算机去帮你盘算了。


虽然每家餐饮企业的成本模型不一样,但我想本质是通用的,无非是“进、销、存、管理运营”下各项收入减去支出得到利润,这上面“​进、存、管理运营​”三部分数据都不难获得,只要有这个记录意识和记录载体并要求一线员工执行这个记录流程即可。但这往往却是最容易被忽视的,太多掌柜习惯于仅仅是财务式的月结汇总而忽略了这个过程,这忽略也将丢失了潜在的盈亏改善点。最常见的就是耗损,如果仅仅是月结汇总时发现本月采购量远远大于销售量时你知道是什么原因导致的吗?养成这种可追溯的历史记录不仅是一种监测,还有可能让你发现“羊毛”,餐饮利润都是精打细算出来的,比如采销商品的进货价,当你遇到某个商品的历史最低价时,难道不应该多进点吗?这机会的发现是不应该浪费你脑子去记的,更好的仅仅是制定录入系统然后查看新生成的历史进货价曲线这样的一个执行制度。


上面提到的数据内容毕竟都在自己手里产生的,可被记录同时也易于分析,可以说只是意识和执行落实层面的事情。而 “销售数据”呢?这不仅是最复杂、价值含量最高的数据,而且还是最不好获得的,至少在现阶段外卖平台还是三国鼎立时要想获取一份统一而完整的销售数据可得费一番功夫。


多个外卖平台的存在对商家来说可谓是又爱又恨。爱在他们间相互竞争时的大力补贴,虽然那段疯狂的补贴红利期已经过去,但补贴依然还是很多商家利润中不可忽略的一部分,从这角度出发商家都爱补贴,都不希望合并。恨又是从何而来?每天都需要同时打开多个商家终端在多个平台维护商品、处理评价、申报满减、活动、对账、库存调整,跟多家平台不同的BD、调度、配送员沟通协调,甚至连每天卖了多少都得几个平台合在一起加加减减才知道,那叫一个累啊。



为了能在多平台上提高效率(主要是懒,懒是信奉Don’t Repeat Yourself原则的程序员的第一生产力,懒得下载报表整理数据,所以我写了些代码,懒得每天守着抢排名还抢不到,所以我写了些代码…),我调研过市面上10数款餐饮系统、pos系统、一体机,也曾期待满满的购买过其中两家的设备,但最终都以失败收场。目前市面还没有一个让人(wo)满意的外卖多平台融合解决方案,在我看来目前市面上的这些一体机设备其实都只不过是一个盒子里面有个Android机和热敏打印机。而所谓多平台融合只不过是安装了多个商家客户端,跟你用手机连自己的打印机没区别T_T,做得好点的会有一个统一商家端看上去好像真的一个客户端解决了耶,但你真正使用时就会发现事情不是你想的那样,各种功能欠缺不说(活动运营、评论处理、商品反向同步、多规格支持等等,不是不说吗?总觉得这厮有点分裂),三天两头让你碰到各种bug,接入开放平台后平台BD权限丢失,而且这融合的统计报表近乎没用都会一次次刷新你的失望值。


这其实也完全可以理解,一方面这些外卖平台自身也在快速迭代,开放平台这事肯定不会是现阶段的重点,开放接口不完善甚至不稳定的来回变都再正常不过了,以至于这类依赖外卖平台开放接口的融合系统功能巨弱、bug无数;另一方面多平台融合这注定不会是一个长久的生意,口碑合进饿了么给到商家就是一周的切换时间,口碑外卖商家客户端一周间说没用就没用了,外卖商家端转眼4个变3个,谁愿意投入资源去研发一个极度依赖第三方接口同时可能说没用就没用的融合系统?


不得不补充,虽然口头上我是不看好这类系统的,但内心我还是期待有企业把这事情做好的,但绝不是靠融合立命,融合外卖只是用来解决用户眼前的痛点,做好融合后的下一步才会是立命根基。这正是我想说的,数据驱动,帮助餐饮企业打造一套数据化运营系统,我是满心期待这类系统不仅帮助商家发现问题(订单量、客单价、评分等的变化),更好的洞悉当前业务状态(复购率、复购周期、用户画像等),甚至还能帮助商家解决问题(菜品迭代、营销推广等),而且我相信这么大的一个市场是有机会的,正如凤巢业务系统(百度竞价排名的商家系统,求别拉黑,仅做类比讨论)虽然也有很多工具帮助商家如挑选关键词、制作广告等等,但依旧有很多第三方SEO、SEM公司研发各种工具去为商家服务。平台自己是很难做到商家心里去,大而全面面俱到、缺少真实的一线实践,最关键的是很多事情平台和商家间关注点不一样甚至是利益冲突的,比如平台更看重GMV(Gross Merchandise Volume成交金额,补贴前订单总金额)而商家更看重Margin(到手利润),100单20元每单利润2元和50单25元每单利润7元,平台会引导商家做前者(GMV 2000 > 1250)而商家更希望的是后者(Margin 200 < 350),在看来外卖平台起来了,后运营时代才刚刚开始​。


由于没找到让人满意的销售数据整合平台,我只好自己构建这套系统。事情都是这样有好的也有不好的,不好的是没人替你做你就得自己做啊,你得想办法去找到你要的数据,人肉也好代码也罢刚开始都是脏活累活,你得搞清楚各个数据所代表的含义以及统一不同平台间的差异,自己设立指标和评估模型等等,但换句话说好的地方就是你现在可以随心所欲的去构建你自己的BI(Business Intelligence 商业智能)系统了。


也许你会问:“各个商家系统里不都有经营分析、运营中心各种数据和报表吗?虽然不能整合在一起,分开看就是了,为啥你还要自己构建这个系统?”,看完这个系列的文章或许你自有答案了!(这句话怎么看怎么像钓鱼,但请相信我,你不会后悔上钩的。)


2、构建一个能够洞察数据的“数据大脑”

正常来说我应该跟大家分享一下怎么构建的,但相信大部分人最先关注的是做什么有什么用而不是怎么做,所以先把What跟大家分享,日后有机会再说说How。

下图是我们正在使用的数据平台(Data Platform),可以称他为我们的“数据大脑”,我们的数据化运营系统,主要用于运营观测和决策支持,技术特征上是一个OLAP、一个敏捷的在线Web BI:


以外卖餐饮大数据为例 量身打造数据化运营体系_基本属性



文不如表,表不如图,一图胜千言,大家自行了解一下什么是“​数据可视化​”吧,简单来说就是用图形化的方式呈现数据的变化、趋势、构成、聚类分布等,既然这是一个解读数据以辅助运营决策的系统,毫无疑问,用数据可视化的手段是最有效的方式。


OLAP又是什么鬼?


OLAP(On-line Analytical Processing,联机分析处理)是在基于数据仓库多维模型的基础上实现的面向分析的各类操作的集合。说人话就是我们的交易数据包含很多信息(属性),我们需要从不同的视角去分析和解读数据:


以外卖业务来说,一条交易数据里就包含了很多数据属性,比如下单时间、平台、菜品名称、菜品数量、价格等等,这里的每一个属性其实就是我们说的维度,可以把它们想象为一个数据立方体(Data Cube),就像这样:


以外卖餐饮大数据为例 量身打造数据化运营体系_数据_02

必须注意的是数据立方体只是多维模型的一个形象的说法,立方体本身只有三维,但多维模型可不仅限于三维,可以组合更多的维度,但超维空间实在不(hua)好(bu)描(chu)绘(lai),所以通常都只用个三维立方体做表述,只是为了给思维塑造一个可供想象的空间而已。姑且就用这个三维立方体接着讨论吧,虽然只有下单时间、菜单名称、平台三个维度数据,或许已经能触痛到很多老板们知道有那么回事,但从来没见到过的内容:


  • 年报季报月报周报日报我能随心所欲切换查看吗?(钻取、上卷)

  • 我能看到任意时段下某个商品的销售变化甚至某几个商品的销售对比吗?(切片、切块)

  • 我能全局观察、对比不同平台或渠道的销售情况吗?(旋转)

以外卖餐饮大数据为例 量身打造数据化运营体系_数据_03


“横看成岭侧成峰”,置身于数据海洋里这一诗词最形象的形容这种情况,这只是OLAP最基本的操作集合,同一份数据通过不同的操作序列组合可以呈现出不同的数据视角,而我要的就是这样一个拥有“上帝视角”的系统去全面了解和分析我们的经营情况。正如你所看到的,在我们的系统中(左侧导航)我们固化了十多个常用的“视角”(仪表盘):订单分析、周订单分布、菜品销量分析、用户地图、用户跨平台分析等等。


以外卖餐饮大数据为例 量身打造数据化运营体系_聚类_04


每一个仪表盘由若干个不同的图表组成并提供不同的切片、切块视图,配备了全局筛选(主要是时间和平台)可以对整个仪表盘内的图表做统一的控制。另外,展开任意一个图表可以查看更多细节和实时做出更丰富的筛选、钻取、上卷、排序等变换:


以外卖餐饮大数据为例 量身打造数据化运营体系_基本属性_05


看到这我想很多人已经按(zhun)耐(bei)不(li)住(kai)了,“再有用也白搭,哪有这样的技术团队去研发这样一套系统啊!”。老板请留步,千万别被这些复杂的概念和酷炫的功能所迷糊,打造这套系统是不需要写代码的,现在已经是“敏捷BI”的时代了,你只需要准备好你的数据,这类系统作为基础能力已经触手可及,国外的Tableau、QlikView,国内的BDP、永洪等等都是可供选择的解决方案,至于各家的优劣对比我就不打广告了(主要是没拿广告费[抠鼻]),大家自行判断。


有意思的事情才刚刚开始,基于这样的数据思维逻辑和可供使用的系统能力我们可以构建出什么样的“上帝视角”才是这系列文章分享的重点。顾客是“上帝”,显然这个“数据大脑”的“顾客”是每一个企业的管理者和经营者,是给各位“老板”们看的,所以所谓“上帝视角”更形象描述应该叫“老板视角”。接下来的几部分内容是这个系统中最常用,也是我个人认为作为企业管理者最需关心的几个数据视角,仅供参考,欢迎一起探讨。


3、业务风向标—订单量客单价成交额、各种聚类分布

“订单量 x 客单价 = 成交额”相信这是各位老板最熟悉不过的公式,运营人员每天都在想各种办法提高订单量,提升客单价,这三个数据指标可以说是我们业务的风向标。而在外卖平台上,我们还会同时关注“用户数”、“用户实付”、“商家实收”,改变统计周期得到的某天、某段时间这些主要的业务指标应该是各种报告里最常规的要素:


以外卖餐饮大数据为例 量身打造数据化运营体系_聚类_06


除此之外,这几个指标还蕴含着一定时间内的:

平均客单价 = 订单总金额 / 订单数

平均用户实付客单价 = 用户实付 / 订单数

平均商家实收客单价 = 商家实收 / 订单数

以及四个类ARPU(ARPU-Average Revenue Per User)值,姑且叫做

每用户平均购买次数 = 订单数 / 用户数

每用户平均订单额 = 订单总金额 / 用户数

每用户平均实付额 = 用户实付 / 用户数

每用户平均实收额 = 商家实收 / 用户数

这么重要的业务数据只有几个简单的指标卡当然是远远不够的,我们还需要看到变化、趋势和对比。


—– 订单量 —–

首先是订单量,光看一条订单量曲线是不够的,这里我更建议区分新用户订单与复购订单,我认为​健康的经营状况其订单量曲线应该是复购订单带动的,复购决定基数,而复购订单量曲线与总订单量曲线间的空隙是增加曝光拉新活动所带来的新用户订单​,我们希望看到的是一轮活动拉升订单后复购订单曲线能不断提高。另外就是不同渠道间趋势和量级上的对比,这有助于了解不同渠道的现状从而有计划有针对性的制定一些策略、活动节奏等等。


以外卖餐饮大数据为例 量身打造数据化运营体系_数据_07

—– 客单价 —–

第二个是客单价,每一种业务产生的交易订单内所包含的要素是不一样的,搞清楚这里面的价格构成在我看来至关重要,因为很多时候观测整体还是局部,能得到相差甚远的结果。


我前面提到过平台更关心的是GMV,所以我在所有外卖平台上看到自家的经营分析里的客单价都是优惠前的平均订单金额一样,仅仅盯着这条“客单价”曲线以为让这条曲线提高就是在提高客单价?这就好像订单原价35补贴10后用户实付25变成原价45补贴15用户实付25,看到了“客单价”提升了30%,但其实你的用户依旧还是那批接受25的人,或者用户觉得你的商品就值25这个价,一旦补贴回到10,用户需要实付30时他们立马就不再是你的用户了,所以你的客单价根本没有真正提升。


提高客单价的途径无非就是​数量更多​或者​卖的单价更​反映在最终都应该是​用户实付的更多​,这种提高才是真正用户对你产品组合(搭售、套餐等提高数量)或者产品品质(提高单价)的认可,才是真正客单价的提高。基于这个逻辑,我们会​以用户实付均价线作为提高客单价的指导线​,订单均价、用户实付比例、订单量都会同时出现在视图里作为参考。


以外卖餐饮大数据为例 量身打造数据化运营体系_基本属性_08


—– 成交额 —–

下一个是关于成交额,虽然这个指标可以通过前面的订单量和客单价推算出来,成交额的变化完全是因为订单量和客单价的变化带来的,但我们依然会把这个指标详细的描述出来,不仅因为这可能是老板们最关心的一个指标,总不能连每天、每周、每月流水是多少都不知道吧?更重要的是单纯的提升订单量或者客单价都是没意义的,他们的乘积得到的成交额提升才是企业希望看到的。除了成交额,我们会进一步拆分出两个相关数据,用户实付和商家实收。


以外卖餐饮大数据为例 量身打造数据化运营体系_聚类_09


—– 频数分布 —–

第一个关于聚类分布的视图是用户实付和订单总金额的​频数分布直方图​:

以外卖餐饮大数据为例 量身打造数据化运营体系_基本属性_10


物以类聚人以群分,不同的品牌在不同的区域所积累的用户都是不同的,他们所能接受的商品价格也是不同的,或者说你的用户对你商品的价格认可区间在一定时间内是相对稳定的,想更准确而全面的了解你的用户购买行为和决策意图,通过平均订单金额,平均用户实付往往是不够甚至有些时候会出现误导。


我们会采用频数分布直方图,横轴代表不同的价位组合(当然组距是可调的),纵轴代表这个价位下的订单量,通过这样的视图你能够轻易发现你的用户对你现在这系列商品的最能接受或者说最受欢迎实付价位(价位区间),这对新品的研发定价特别是组合现有商品出组合套餐价位有很好的指导意义。


另外就是订单总金额的频数分布,这个同样可以寻找到用户最舒服的订单总价,同时可以通过这个分布去检查你设置的满减档位是否合理,用户最舒服或者感觉“最占便宜”的满减当然是刚好满足的那个价格了,所以当你发现你的订单总金额明显集中在满减档位右侧不远处时这个满减档位是理想的,比如第一档满30减,订单总金额集中在35~38间是理想的(满减不含4~6元不等的运费),但如果并未观察到这种集中就证明你设置了一个完全没用的满减档位(虽然这可能是个策略,有机会再分享运营活动的量化体系),或者发现集中分散在离档位较远的地方,比如分散到35~45,这时你就可能需要考虑满减档位的调整、针对性的出一些组合套餐、凑单用的小额单品,毕竟虽然你赚到了这种不计较是否满减占到便宜的用户,但你可能流失了更多觉得“满减不舒服”的用户。(这并不适合电商运营,哪上面的套路太深,提价后再搞活动不说,他们的满减就是让你不舒服的,比如满300减你能找到的都是299的商品而且没有低于100的东西)


—– 时间分布 —–

时间分布上首先是周订单分布,通过这个视图我们能了解到某段时间内一周订单的变化和构成,能发现不同渠道间订单量和客单价的变化差异。统计时间越短受参加的营销活动影响更大,统计时间越长趋势和特征则更明显。


以外卖餐饮大数据为例 量身打造数据化运营体系_基本属性_11

再进一步聚类可以得到日订单分布,粒度为小时甚至是10分钟做聚合,这些时间维度上的聚类分布可以让我们了解到订单都是如何发生的,这些特征不仅可以指导日常进销存管理,员工值班安排,更重要的是可以有助于运营的启发,观测营销活动运营效果等等。


以外卖餐饮大数据为例 量身打造数据化运营体系_数据_12

以外卖餐饮大数据为例 量身打造数据化运营体系_基本属性_13


—– 空间分布 —–

每个订单详情都带有天然的地理属性(城市、商圈、地址详情、经纬度),把这个地理坐标与前面任何一个数据关联起来我们就能知道所服务的区域里哪些地方订单更集中?哪些地方成交额更高?甚至某个商品在什么地方更受欢迎?等等,所以在我们的系统里会有各种各样的用户地图。


以外卖餐饮大数据为例 量身打造数据化运营体系_数据_14


再进一步,​空间数据加入了时间维度,更多有价值的信息就会被挖掘出来​。是否可以根据这些时间和区域属性有针对性的在不同时间推出更符合用户诉求的商品或服务?比如“周末加班特供”、“周末宅家套餐”、“晚7点二人餐”?


以外卖餐饮大数据为例 量身打造数据化运营体系_数据_15


相同地区在不同时间维度上的对比是件有意思的事情​,不仅可用于对区域营销活动的效果观测,还可以及时发现订单新增或流失区域。


以外卖餐饮大数据为例 量身打造数据化运营体系_基本属性_16

当然,还能以地图的方式查看订单明细,这就更精细化运营时(用户研究,回访等等)使用的视图了,就此略过。


以外卖餐饮大数据为例 量身打造数据化运营体系_数据_17

总结:​订单量、客单价、成交额作为观测业务运营情况最重要的三个指标应该作为常驻观测项,同时我建议在此基础上细分出新用户订单与复购订单以分析业务是否运转健康;把每个订单的金额根据构成拆分开以观测真正的用户实付、商家实收客单价的变化;分析用户实付与订单总金额的频数分布用于指导新商品的研发定价、满减返券档位设置;通过订单的时空分析我们可以了解到订单是在什么时间从什么地方而来,变化是如何发生,这对于门店日常工作、进销存管理、销量预测、运营推广、广告投放策略都具有指导意义。


4、商品晴雨表—销售分析、波士顿矩阵(BCG Matrix)、留存流失指数

不管是各种核心的业务风向标还是不同的聚类角度(时间、空间),前面的视角主要都是从订单角度去了解我们的业务,如果我们从订单数据中再深挖一层,就会发现一项重要信息——​商品明细​,一个订单会包含一个或多个商品,从商品角度观测业务运营不仅可以了解各个商品的销售情况,打磨完善整个产品体系,甚至可以从中挖掘到商品对于品牌(或店铺)的留存流失贡献度。


—– 销售分析 —–

从最基础的观测商品的销量变化就能挖掘很多信息,比如发现哪些商品是主力?某个商品销量明显落后,是否定价有问题?某个商品一直不温不火,促销拉升一下是否能改善?某个商品促销后并不能稳住销量?这些问题其实都可以从商品销量上直观看出来。

以外卖餐饮大数据为例 量身打造数据化运营体系_数据_18

进一步扩展我们可以得到下面几个更直观的商品销量分析图表:

【商品销售构成-金额】从销售额的角度观测那些商品是我们的销售主力。

【商品销售构成-数量】同上,只是从数量上去观测。

【单品套餐比例】如果你跟我们一样有单品也有套餐,相信你也会关心究竟用户是单品点的多还是套餐点的多,这也可以用作检查套餐组合是否符合用户诉求的视图。

【商品拉新排名】新用户首单最爱的是哪个商品?从这个视图可以找到答案,找到新用户首单最爱的那些商品后就可以分析原因,是名字、价格、图片、描述、店内排名还是特价、参加渠道活动让这些商品脱颖而出,反复参考这些拉新效果好的商品去实验调整其他商品,这将有助于整体提高店铺的下单转化率。

以外卖餐饮大数据为例 量身打造数据化运营体系_聚类_19


—– 波士顿矩阵(BCG Matrix)—–

“波士顿分析法”,著名的波士顿矩阵(BCG Matrix),又称市场增长率-相对市场份额矩阵、波士顿咨询集团法、四象限分析法、产品系列结构管理法等,由美国著名的管理学家、波士顿咨询公司创始人布鲁斯·亨德森于1970年首创。

以外卖餐饮大数据为例 量身打造数据化运营体系_数据_20

除了上图里提到的销售增长率和相对市场占有率之外,其实这种方法可选的参考维度还可以有很多,比如:​销售量​(销量增长率)、​销售额​(销售额增长率)、​销售利润​(利润增长率)、​利润率​、​留存指数​或​流失指数​(偶发明的,下文详解)、​菜品评分​等。这十多项数据维度随便任选两个组成四象限可以说都具有某种参考指导,具体选哪个取决于你的商品体系处于什

么样的阶段(新品打磨期、发展期还是成熟期)以及你希望了解什么。


在我们的系统里我选取了销量增长率和销售利润,我希望知道那些产品帮我们赚的更多以及那些产品卖得越来越好(≠卖得好,前者强调的是增长是变化,而后者是绝对值是状态),所以我们就会有这个矩阵(我增加了第三个维度,圈圈的直径大小代表了商品销量):


以外卖餐饮大数据为例 量身打造数据化运营体系_数据_21


—– 留存流失指数 —–

上文提到过留存指数和流失指数,这又是什么黑(po)科(wan)技(yi)?这应该不会在其他地方见到,尽管可能名称相同但其含义应该不会一样,这是我在过去这段每天潜心(xia)研(zhe)究(teng)的日子里摸索出来的一个模型,模型规则很简单也很好理解,但出乎意料的好用(仅适用于餐饮外卖行业,其他行业可以类推),跟各位分享,欢迎探讨。

我们一直很关心用户的留存和流失情况,深入下去发现最影响用户留还是走的因素就是商品本身,所以​留存流失情况其实埋藏在用户的订单行为上​,如果一个用户反复购买同一个商品,我们可以认为这个商品对用户留存起到了积极的作用,建立在这个理解上我定义了商品的留存指数:​同一个用户购买同一个商品2次以上积分​,分值 = 购买次数 – 1,2次等1分,3次得2分,如此类推。

反之如果一个用户购买了某个商品后再也不复购这个商品甚至再也不光顾咱家店了,我们就认为这个商品可能把客户给丢了。但用户只购买这个商品一次概率上可能有三种情况,流失不再来(最糟的情况),未流失但不喜欢这个商品再也不买了(不好也不坏),未流失可能下次还会点(最好),建立在这个理解上我定义了商品的流失指数:​同一个用户只购买同一个商品一次将积分​,分值固定为-0.34(-1/3)。

有了这两个指数我们可以得到一个综合的留存流失贡献度:


留存流失贡献度 = 留存指数 + 流失指数

留存流失贡献度为正值代表留存贡献大,为负值代表流失影响大,基于这个简单的模型我们有了一个全新的视角观测我们的商品体系:


以外卖餐饮大数据为例 量身打造数据化运营体系_基本属性_22

从这个视图里可以发现菜品F表现最好,AG次之,D一般,CE不太理想,B最差。一开始我跟你一样,对这么一个简单的模型和假设是拒绝的,怀疑它是否准确和有效,直到我把菜品星级评分抓取出来:


以外卖餐饮大数据为例 量身打造数据化运营体系_基本属性_23

以外卖餐饮大数据为例 量身打造数据化运营体系_基本属性_24

得到的结果让我大吃一惊,大方向完全准确,甚至小排位都保持一致,有了评分数据作为模型的对比校验,我确信了这个模型的准确性(这不废话,要是对不上你不打脸了吗,还会拿出来分享!)。至于有效性,这取决于你是怎么利用这个结果,这也需要更多的实验和数据观测,可以分享的是我们会基于这个数据结果做菜品的末位淘汰。

—–

总结​:从订单数据下沉到商品数据,不仅可以简单直接的了解到各个商品的销量变化、销售贡献,结合不同维度的“波士顿分析”可以更加有效的打磨和完善整个商品体系,更重要的是这种商品数据能够进一步的描绘用户的购买行为从而可以捕获到不同商品对于整个品牌(或店铺)的留存贡献和流失影响。


5、用户群分析—基本属性、RFM模型、留存率Cohort Analysis(同期群分析

从订单数据到商品数据,商品数据又间接描绘了用户购买行为,我们离“上帝”越来越近了,是的,我指的“上帝”就是我们的顾客。对你的顾客越了解,你的营销策略将越有针对性也更加有效,而且更加重要的是在用户数据里埋藏了一个几乎决定一家店铺命运的重要指标——​留存率​!


—– 基本属性 —–

先来个简单的,用户基本属性,前面提到的用户地图就是很重要的一个基本属性,用户来自哪里?不同时间、不同客单价的集中分布都是不一样的,这就是OLAP的重要性,我们可以实时查询到不同条件组合下的用户分布,甚至能知道喜欢某个商品的用户都在哪里,简单举个栗子,见下图,同样是可乐,普通可乐和健怡可乐的用户分布,你发现什么了吗?

以外卖餐饮大数据为例 量身打造数据化运营体系_聚类_25

哼~在9元/平/天的地方办公跟在6元/平/天的地方上班就是不一样,东湖湾不过也就1000w起的楼盘~开玩笑啦,没有任何歧视的意思了,如果你觉得有,那肯定是因为你在望京研发园上班[偷笑],还能挖掘到很多类似的case,知道喜欢某个商品的用户在哪里后或许你能挖掘到这匹配背后的原因,​帮助商品匹配到更多的用户​或者​帮助用户匹配到更多商品​都是十分有价值的。


除此之外,能从订单里统计出来的基本属性还有:复购次数聚类、实付区间聚类、复购用户的多平台使用情况(以用户电话作唯一标识)、用户性别等。

以外卖餐饮大数据为例 量身打造数据化运营体系_数据_26


值得注意的是,这部分数据平台间差异还是蛮大的,除了跨平台分析,我们也需要分平台对比,这有利于针对不同平台做不同的营销策略。


以外卖餐饮大数据为例 量身打造数据化运营体系_基本属性_27

上面这些都是最基本的用户属性,但所有的复杂模型都是由最基础的维度和度量组合而来,理解这些基本属性的含义才能更好的构建和运用高阶的分析模型去挖掘更多有价值的信息。

—– RFM模型 —–

RFM模型​就是其中一个被广泛使用的客户关系分析模型,理解这个模型对于后续的应用分析太重要了,请允许我简(fu)单(zhi)介(zhan)绍(tie)一下(如果了解这个模型可以直接跳过这部分内容)。

根据美国数据库营销研究所Arthur Hughes的研究,客户数据库中有三个神奇的要素,这三个要素构成了数据分析最好的指标:

  • 最近一次消费(Recency)

  • 消费频率(Frequency)

  • 消费金额(Monetary)

最近一次消费(R指用户上一次购买的时间,理论上,上一次消费时间越近的顾客应该是比较好的顾客,对提供即时的商品或是服务也最有可能会有反应。因为最近一次消费指标定义的是一个时间段,并且与当前时间相关,因此是一直在变动的。最近一次消费对营销来说是一个重要指标,毕竟要吸引一个一周前购买过的顾客再次购买,比吸引一个几个月前来过的顾客要容易得多。营销人员如接受这种强有力的营销哲学——与顾客建立长期的关系而不仅是卖东西,会让顾客持续保持往来,并赢得他们的忠诚度。


消费频率(F是顾客在一定时间段内的消费次数。最常购买的消费者,忠诚度也就最高,增加顾客购买的次数意味着从竞争对手处偷取市场占有率,由别人的手中赚取营业额。根据这个指标,我们把客户分成五等分(F1~F5),这个五等分分析相当于是一个“忠诚度的阶梯”(loyalty ladder),其诀窍在于让消费者一直顺着阶梯往上爬,把销售想象成是要将两次购买的顾客往上推成三次购买的顾客,把一次购买者变成两次的。

消费金额(M是对电子商务网站产能的最直接的衡量指标,也可以验证“帕雷托法则”(Pareto’s Law)——公司80%的收入来自20%的顾客。

一般的分析型CRM(客户关系管理)着重在对于客户贡献度的分析,RFM则强调以客户的行为来区分客户。R(Recency表示客户购买的时间有多远,F(Frequency表示客户在一定时间内购买的次数,MMonetary表示客户在一定时间内购买的金额,在每一个维度上都分成5我们就可以把顾客分成5 x 5x5 = 125类,对其进行数据分析,然后制定我们的营销策略。


把客户细分出125类显然已经超出了普通人脑的计算范围了,更别说要针对不同类别制定不同的营销策略,实际运用上其实也不需要做到那么细,大多数情况下我只需要在每一个维度上做一次二分(yes or no)区分对待即可,但尽管只是二分,3个维度下我们依然已经把客户分成了8组:

以外卖餐饮大数据为例 量身打造数据化运营体系_数据_28

这其实上很好解读(名字不重要,编号次序为RFM,1代表高,0代表低):

重要价值客户(111)​:最近消费时间近、消费频次和消费金额都很高,必须是VIP啊!

重要保持客户(011)​:最近消费时间较远但消费频次和消费金额都很高,一段时间没来的忠实客户,要跟他保持联系不要断。

重要发展客户(101)​:最近消费时间近,消费金额高,但消费频次不高,忠诚度不高,但很有潜力也最易发展的客户,必须重点发展。

重要挽留客户(001)​:最近消费时间较远、消费频次不高,但消费金额高,很久不来虽然消费频次不高,但消费金额很高的用户,可能已经或就要流失重要客户,应给予挽留措施。

其他我就不啰嗦了,有这个区分有什么用才是关键!毫无疑问,做精准营销!这个在互联网泛产业中无论是搜索、电商、金融还是旅游、教育、社交等等都已被广泛使用技术手段,你所看到的任何结果、任何推荐无一不是因为你在某些个维度上具备了某些特征(0 or 1),摘取某人工智能公司(我才不会说是第四范式)的案例:

第四范式机器学习模型,帮助商业银行信用卡中心定位有分期需求客户,及时对客户进行短信营销,帮助客户控制成本的同时,提高了手续费收入。在保持短信发送比例下,交易数提升68.6%,金额提升61.7%

从数百理财产品中,通过第四范式模型找到客户最感兴趣的产品,通过短信营销,实现响应率提升。相比经验规则模型,发送原30%的短信即可覆盖90%的客户。实际应用显示,普通零售客户响应率提升729%,交易总金额提升553%

机器正在以我们无法想象的维度空间不断的把我们区分对待做一次又一次的精准营销,更美(ke)好(pa)的是这万亿级的特征量已经不是人工分类而是机器自动学习而来,这不是未来,已是现在,区分用户,精准营销时代已经到来。

言(zhuang)归(b)正(jie)传(shu),回到我们的RFM模型,从营销的角度来说,R(Recency)是最直接影响营销ROI(投资回报率)的参数,很多时候只需要在R上做个二分然后去执行就很好,比如我们做的外卖赠品密令短信,对全用户群发短信转化只有不到1%,但如果只选取R4~R5(最近2周和最近1个月)的用户,转化率可以高达10%,也就是说ROI从6元/订单下降到0.6元/订单,你可以选择是花600元给10000个用户群发短信得到100个订单,或者只花48元给800个用户群发短信得到近80个订单。当然,如果您20个订单就能赚到552元,或者20个订单对您讲故事很有用,那就不用管啥ROI,尽管发就是,但我相信,对绝大多数的老板来说,这笔账还是很会算的。

R上做二分是个很好用的方法,所以在我们系统里,这个三维的模型会被投射到二维平面上,R作为一个参数供调节,可以理解为我们在R域下切了一块出来,然后压扁了就会变成这样:


以外卖餐饮大数据为例 量身打造数据化运营体系_数据_29

RFM模型的核心作用就是用户分组,分组以便于我们更好的管(ying)理(xiao)和维(zhuan)护(qian),可以有效提高短信、个推、定期电话回访等的ROI,这方面的应用实践已经有很多案例就不再罗列了。

—–留存率Cohort Analysis(同期群分析)—–

压轴总是在最后才上场,接下来我们聊聊这一节开篇提到的那个几乎决定一家店铺命运重要指标——​留存率​!我一度绝望的担心我没法把这个指标说明白,直到发现了曲凯老师的​“早知道这些我的公司就不会死”系列​的两篇文章,我想他已经把相关核心内容讲得很清晰了,我可以引(tou)用(lan)一下。


留存率为什么如此重要?因为他将直接影响到我们的生意是否有(zuan)趣(qian)!不管是什么生意,可以肯定的是自然流失是必然存在的,我们希望生意增长(至少保持稳定)我们要做到的就是让新增客户大于等于流失客户,或者更直接的说我们要做到 “用户终身价值”大于“用户获取成本”,并且是在可接受的“回收期”内达到大于以实现获利,这将直接影响到现金流的运转效率。


CAC是Customer Acquisition Cost的缩写,意思是“用户获取成本”

LTV是Life Time Value的缩写,意思是“用户的终身价值”相对准确的计算公式是(客户每个月的购买频次x每次的客单价x毛利率)x(1/月流失率)

PBP是Payback Period的缩写,意思是“回收期”即花出去的用户获取成本可以在多长时间内回本

也许你会说“我就在平台上开个外卖店”,用户打开app就看到我们家了,哪来什么“用户获取成本”?这就错了,流量总是有限的,新用户为什么能在数千商家里看到你家,是因为你投入了成本,不管是因为你营销活动给力最近订单保持良好以至于你能自然排名靠前,还是你参加了周三特价活动能有了专题曝光,或者更直接的你买了排名,甚至你地推发了传单,这些方式里的满减、赠品、折扣、印刷费人工费折算下来都是你的“用户获取成本”,当你有了留存的概念算进去,这些成本都将与过去大不一样。

还是以外卖为例,比如花300块钱买一个排名获取到50个新用户订单,而你3个月的用户留存率能稳定到20%,那么这事情到底值不值?你可以用上文描述的CAC、LTV、PBP去算,或者我还有一种更简(cu)单(bao)的方式让你快速判断一个投入是否值得:​把成本都均摊到最终留存用户身上,需要多久才能从这些用户身上赚取到所投入的成本,如果时间短于稳定留存率时间,这事就值。


就像这样,50个新用户在3个月后最终能稳定留存下来10人(50 x 20%),我们可以简单的理解为需要在这10个用户身上赚钱到300元也就是说需要在每人身上赚取到30元,假如我们每单毛利有5元,需要用户下6单,假如平均每2周下单一次,需要2.8个月,短于达到稳定留存率的时间3个月,这事值得做!

但如果你的3月留存率只有5%?同样计算你会得到需要11个月,这远大于3个月,这事就显然不值得做了。

以外卖餐饮大数据为例 量身打造数据化运营体系_数据_30

其实计算原理就是上图,这是相对保守的营销策略,我希望绿色箭头所在区间就能cover到投入成本,这样不管留存率如何衰减,投入成本都是能收回的,也就是说我希望的PBP少于等于留存率稳定时间Ts。当然如果你需要更加激进的策略,可以让绿色区域继续往右侧延伸,比如让PBP = 1.5 x Ts甚至足够信心的3 x Ts(外卖市场并不稳定,PBP不建议超过3倍留存稳定时间,每个行业的PBP都是不一样的.


留存率是如此重要,它直接影响你的“用户的终身价值(LTV)”、帮助你判断每一次 “用户获取成本(CAC)”是否合理,它的稳定时间甚至可以作为你的“回收期(PBP)”参考单位,所以我们需要用一个更加厉害的工具观测它。


在RFM最后一张图里有一个词已经提前乱入了画面,不知道大家注意到没有?“​同期群分析(Cohort Analysis​”,如名字一样,cohort,同生群,同期群,也就是说一起出现、成长的群体,在我们的应用里就是在同一段时间内一起出现(初次下单)的客户群体。其实核心还是分组,只不过这次是固定在初次下单这时间维度上的分组,为什么需要分组?“​因为数据是会骗人的,尤其是平均数据,真实世界会有用户每个月下单2.5次吗?很可能是两个分别下单1次和4次的客户而已,一个中等的平均的用户画像其实完全是用数据创造出来的虚幻的形象。要真正从数据层面掌握一家公司的情况,就要把数据不断地分组和细分,而最常用的一个分析工具就是这个“Cohort Analysis”(同期群分析或分组分析)。


同期群分析只是一个工具,或者说是只是一个分组分析的方法而已,把这个方法用于分析某项指标才是发挥它价值的方式,是的,我们将会使用这个工具观测那个重要的指标——​留存率​。


正如文章所描述,典型的留存率Cohort Analysis表格是这样的:

以外卖餐饮大数据为例 量身打造数据化运营体系_聚类_31

1)横向比较,可以看出每月新增用户在后续各月的留存率情况。

2)纵向比较,可以看出不同月份新增用户,分别在当月、下个月、下下个月等的留存表现如何。

这怎么理解?套上个实际例子来说吧,假如我们每周都有计划的按照某种拉新渠道推广,这一周是买排名,下一周是上平台5折特价活动,再下一周是地推传单等等吧。我们就可以横向观测到每一周拉新渠道能获取到多少新用户,并且这些新用户在接下来各周的留存率变化。另外我们还可以纵向比较出那种渠道拉新更优,留存更优,正如上表看到的“5月”那行在纵向比较中明显比其他月份差,我们就知道这种推广方式带来的用户留存并不理想(留存不理想不代表这种推广方式不该做,也许这种方式成本很低,就像我们发现通过大额折扣拉新比通过买排名得到同期群用户留存率低一样,毕竟大额折扣的拉新混进不少只图便宜的用户,但折算下来成本低更划算依旧值得做)。


这就是我们系统里的留存率CA表格,周粒度细分,我们的留存率稳定时间在8周左右,所以我们观测到12周。

以外卖餐饮大数据为例 量身打造数据化运营体系_基本属性_32

就像前面提到的一样,我们可以对这个CA表格做横向和纵向的比较去观测不同时期的用户群留存率变化,而且值得注意的是当我们调整某种营销策略并不仅仅只是影响到拉新时,我们还需要观测斜向对角线左右两侧的比较。


以外卖餐饮大数据为例 量身打造数据化运营体系_聚类_33

这其实很好理解,比如上图假如7月18日(29周)后起我们调整了满减,从7折上升到8折,正常来说满减力度下降了会导致历史同期群(29周前)里更多用户流失(毕竟当年他们是被我们7折满减吸引而来的),留存率下降,也就是说这将影响到28周同期群用户的1周后留存率、27周同期群用户的2周后留存率、…如此类推,其实就是这周起斜下方对角线的右侧留存率应该明显低于纵向同周期的左侧留存率(上图留存率A < 留存率B)。虽然这种调整对历史同期群的留存率有负向作用,然而这并不一定对未来的留存率产生同样的负向作用,也有可能因为满减力度下降我们迎来了更多真实用户反而留存率提高,这是平均值永远无法告诉你的事实,也正是Cohort Analysis(同期群分析)的精髓所在。


—–

总结:​越了解你的用户,你的营销策略将越有针对性也更加有效,用户的购买行为甚至习性品好都可以从数据中得以窥探,这都可以帮助我们改善经营。而在用户群分析上不管是利用RFM模型还是Cohort Analysis表格其核心思想都是用户分组,有效的分组不仅可以提高运营效率、提高营销投放的ROI,更重要的是可以规避“平均值”所带来的陷阱。


结语 · 迷信数据

每个行业都有自己必须解决的核心问题,正如出品和服务永远都是做好餐饮企业的根本,但数据化运营不能帮助你解决任何根本问题,它只能帮助你更好的发现问题和提供决策参考。而且更重要的是如果过分迷信数据,这将可能把你带向深渊,如果你搜索一下“数据会说谎”,相信你一定能找到无数十分真实而又荒诞绝伦的故事,这正是我希望提醒大家的,别迷信数据。


从数据获取的准确性、完备性到数据清洗筛选、分析的方式方法,每一个步骤都可能出现问题,即使每个步骤看起来都是合乎逻辑的,甚至尽管你已经得到了完全正确的结果,问题依然可能出现在我们要对这个结果的解读,比如:“A类型产品的销量远比B类型产品的销量多”,那么“我们应该生产A类型产品,因为他更受用户欢迎”或者“我们应该生产B类型产品,因为市场空白竞争少”,无论那种解读都可能是个绝妙的主意或者带来灾难。


其实数据不会说谎,它们只是一些毫无意义的数字而已,数据分析中永远不能忽略的一个问题,就是:“数据并不一定代表事实,但是数据可以帮助你更透彻地去发现事实。”如果非得说数据驱动最有价值的一点,莫过于:

“If you cannot measure it, you cannot improve it.”

你不能监测的东西,也无从改善。


公众号: weic2c   

据分析入门与实战

从哪里做起学习数据分析?

如何培养数据分析的能力?


以外卖餐饮大数据为例 量身打造数据化运营体系_基本属性_34

长按图片,识别二维码,点关注