对一组数据进行微分处理的python代码_编程语言

以前产品的好坏主要凭感觉,随着移动互联网的发展,可获取用户的各种行为数据,通过数据,我们可以了解产品的好坏、用户的喜好,从而用数据驱动产品迭代。

数据分析更多的是基于业务背景来解读数据,把隐藏的数据背后信息提炼和总结出来,发现其中有价值的内容。

由于这个过程中,数据是客观的,人是主管的。同样的数据不同的人解读出来的结论可能是不一样的,甚至是完全相反的,但结论本身没有对错,所以从客观的数据到主观的人,需要有一些科学的分析方法作为桥梁,帮助数据的信息更好、更全面、更快的传递。

那常用的数据分析方法有哪些呢?

1、趋势分析

当数据很多,而我们又想从数据中更快、更便捷来发现数据信息的时候,这个时候需要借助图形的力量,所谓图形的力量,就是借助EXCEl或者其他画图工具把他画出来。下图是某个网站7月份每天的访问数据。你无法从数据中得出有用的信息。

对一组数据进行微分处理的python代码_大数据_02

如果把他用图形画出来,你就能发现一些问题。

1、从7月初到7月末,整体的访问人数是呈上升的趋势。

2、每周每两天数据都会低下去,也就是说数据有明显的周期性,工作日的表现会比周末好一些。

3、7月29日当天出现了一个波峰,有可能当天正在搞活动,所以当天数据是上去的。

对一组数据进行微分处理的python代码_人工智能_03

这就是趋势分析,趋势分析一般用于核心指标的长期跟踪,比如:点击率、GMV、活跃用户数。一般做成简单的数据趋势图,但光制作成数据趋势图还不算分析,必须像上面一样,数据有那些趋势上的变化,有没有周期性,有没有拐点,并分析背后的原因,无论是内部原因还是外部原因。

趋势分析最好的产出是比值。有环比、同比、定基比。比如2017年4月份比3月份GDP增长了多少,这就是环比,环比体现了最近变化的趋势,但有季节性的影响。为了消除季节性的影响,推出了同比,比如:2017年4月份比2016年的4月份GDP增长了多少,这就是同比。定基就更好理解,就是固定某个基点,比如将2017年1月份的数据作为基点,定基比则为2017年5月份和一月份比。

2、用户分群

比如电商网站,我们可以专门分析收件地址为上海的用户群特征。就好像不同的地方人群有不同的饮食习惯一样,不同地区的用户肯定也有自己的群体特征。通过把这部分人群提炼出来,我们可以观察他们购买产品的频度、类别、时间,这样就可以创造出该群体的用户画像。

将用户按照不同维度进行细分,可以进行精细化的运营。比如可以把营销活动中支付失败的用户收集起来,分析他们支付失败的原因,优化产品设计。然后给他们发优惠券,进行精准的营销推广,提高转化率,增加营收。

3、对比分析

横向对比:横向对比就是跟自己比。那我们最常见的数据指标,销售额来讲,最常见的数据指标就是我们需要跟目标值比,来回答我们有没有完成目标;跟我们上个月比,来回答我们同比增长了多少。

纵向对比:简单来说就是跟他人比。我们要跟竞争对手比,来回答我们在市场中的份额和地位是怎样的。

很多人可能会说,对比分析听起来也很简单么,那我举个例子,有个电商的签到页面,昨天它的pv是5000,你听到这样的数据有啥感受?你不会有任何感受,如果说你知道这个签到页面的平均PV是10000,说明昨天出现了重大问题,如果说签到页面的平均pv是2000,则昨天有个跃升,数据只有对比,才能产生意义。

常见的对比应用有A/B test。A/B test有三个必备的因素:

1、A/B test的关键就是保证两组中只有一个单一变量,其他条件保持一致。比如测试首页的改版效果,就需要保证来源渠道一样,用户质量一样,上线时间保持相同,这样测试出来的数据才有意义。

2、有足够的时间进行测试

3、数据量和数据密度较高。因为当产品流量不够大的时候,做A/B test测试得出的结果也是不准确的。

新老版本迭代的时候,我们一般列出一些指标,来评估版本迭代的好坏。比如访问频次、使用时长、启动次数、关键事件达成率、留存率....

而且我们一般采用对比方式来对比新版本发布前后新版本用户和老版本用户各数据指标前后的差异。

经常得出的结论是新版本的数据优于老版本的数据,然而真的是这样么?通常喜欢升级新版本的用户都是最活跃的用户,因为他们本身对产品的依赖度强,使用频度高,升级的机率自然就大。

如果想做此类数据分析,最好选择两个版本发布初期的新用户,保证对比指标之外的其他因素尽可能保持一致。

4、象限分析

依据数据的不同,将各个比较主体划分到4个象限中。如果把智商和情商进行划分,就可以划分为两个维度四个象限,每个人都有自己所属的象限。一般来说,智商保证一个人的下限,情商提升一个人的上限。高智商高情商的人事业顺风顺水、高智商低情商的人做起事情来会很痛苦,觉得周围的人都是傻逼,处理不好人机关系、低智商低情商的人就没啥事业了,低智商高情商的很会处理人际关系,但是学起东西来比较慢。

对一组数据进行微分处理的python代码_人工智能_04

扯远了,那我们回到数据分析,举一个之前实际工作中用过的四象限分析法。一般p2p产品注册用户都是有第三方渠道引流的,如果按照流量来源的质量和数量可以划分四个象限。然后选取一个固定时间点,比较各个渠道的流量性价比,质量可以用留存的总额这个维度计算。对于高质量高数量的渠道继续保持,对于高质量低数量的渠道扩大引入数量,低质量低数量pass,低质量高数量尝试一下投放的策略和要求,这样的象限分析可以让我们在对比分析的时候有一个非常直观和快捷的结果。

对一组数据进行微分处理的python代码_编程语言_05

5、细分分析法

对比分析既有横向对比,又有纵向对比。如果既想横向对比,又想纵向对比,就有了交叉分析法。交叉分析法就是对数据从多个维度进行交叉展现,进行多角度的结合分析。

在分析app数据的时候,通常会分ios和安卓来看,从下图我们可以看出ios和安卓的数量比例,以及两者之间的差距。

对一组数据进行微分处理的python代码_编程语言_06

如果在上述图标中加入时间的维度,数据信息会变得很丰富,从下面的数据中我们可以看到ios每个月的数据在增加,而安卓每个月新增的用户数量在降低,整体新增用户并没有出现增长的主要原因就是安卓端的用户在减少。

对一组数据进行微分处理的python代码_人工智能_07

从上面的例子我们可以看出,叠加一个维度,信息的数据就会变得丰富,那我们能否叠加更多维度数据进行分析呢?答案当然是可以的。从上面的图标中我们看到了安卓的2季度数量是下降的,那为什么安卓的二季度数据会下降呢?这个时候可以加入渠道的维度,从图中可以看出安卓端预装渠道的占比是比较高的,而且呈现降低的趋势,而其他渠道的变化更不明显。从这个过程中我们可以得到更进一步的结论,安卓端二季度新增用户降低主要由于预装渠道降低所致。

对一组数据进行微分处理的python代码_数据分析_08

细分分析的主要作用就是从多个维度细分数据,从中发现最为相关的维度来探索数据变化的原因。

常见的维度有:

 ● 分时:不同时间段数据是否有变化。

 ● 分渠道:不同流量来源数据是否有变化。

 ● 分用户:新注册用户和老用户相比是否有差异,高等级用户和低等级用户相比是否有差异。

 ● 分地区:不同地区的数据是否有变化。

细分分析法是一个从粗到细的过程。

6、漏斗分析

漏斗模型在数据分析中很常见了,常见的有注册转化漏斗,还有下单支付漏斗。通过漏斗分析可以还原用户转化的路径,分析每一个转化节点的效率。

漏斗模型中我们往往关注三点:

1、整体的转化率是多少。就是每一步相对于第一步的转化率是多少。

2、上一步转化率。每一步相当于上一步的转化率。

3、哪一步流失最多,流失的原因是什么?流失的用户都有哪些特征?

对一组数据进行微分处理的python代码_机器学习_09

7、留存分析

在人口红利消退的年代,留住老用户的成本远远低于获取新用户的成本。所以可以重点关注用户的留存事宜。比如可以通过分析用户行为和留存之间的关系来提升留存。

比如Linkdin就发现用户添加5个以上的联系人,留存率显著提高。

8、数据建模

数据建模是一种用于定义和分析数据的要求和其需要的相应支持的信息系统的过程。

当我们需要预测判断客户的流失时,我们可以通过用户行为数据、用户画像等数据建立流失模型。利用统计学的方式进行一些组合和权重计算,从而得知用户满足那些行为之后,流失的可能性更高。

9、归因分析

我们买一件东西,可能会有多次转化节点。比如我们想买一个衣服,第一次在淘宝上看到的时候想买没买,加入购物车了。第二次我们去线下实体店的时候,我们又看到这样一件衣服,这个时候我们下单了。这里面有三个节点(分别是淘宝平台、淘宝平台上的商家、线下实体店),到底哪一个节点贡献更大呢?这样的一个分析模型,我们把它叫做归因分析。当然转化并不一定是完成销售,注册也是转化,一次访问也是转化,所以可以根据自己的实际业务需求制定自己的转化目标。

归因模型在使用过程中通常分为几类:最终互动模型、首次互动模型、线性归因模型、时间衰减归因模型、自定义等,这里逐一进行描述:

产品情景描述:用户在淘宝上想买东西,没买,加入购物车了,过几天又在线下实体店看到,这次终于下定决心购买,最终完成转化。

对一组数据进行微分处理的python代码_大数据_10

最终互动模型:最后一个节点将被分配100%的功劳,那么线下实体店获得100%的功劳;

首次互动模型:用户首先是在淘宝上看到的,那么淘宝将被分配100%的功劳;

线性归因模型:用户从开始搜索到转化,共经历了3个渠道(节点),那么每个节点将被平均授予33.3%的功劳;

时间衰退归因模型:用户在淘宝以及淘宝上的商家看到这件衣服是几天之前的事情,那么这两个渠道因为时间经历比较长的原因将被分配较低的功劳(如各20%),实体店将被分配相对较高的功劳(60%);

归因模型主要用于渠道的分析,目的在于找到有利的渠道,然后扩大合作。

总结:现在都是说用数据驱动产品增长,只有掌握合适的数据分析方法,才能驱动产品增长。不掌握数据分析方法,光有数据也产生不了价值。希望能帮到大家,喜欢的小伙伴点个在看呗。