导言
数据分析是一个巨大的项目,有时过于抽象,依赖于经验。本文是作者对学习和实践数据科学的分析的总结。我希望提供一般的数据分析思路,并在分析的每个步骤中介绍相关的分析算法及其应用场景。对于算法,仅使用浅层。
本文面向不熟悉数据分析或不知道如何开始使用大量数据的读者。同时,由于作者的经验和知识,本文介绍的分析思路也存在一定的局限性。希望读者能够在分析中做出合理的参考。
在进行任何数据分析之前,您应该首先准备以下内容:
1.熟悉业务,了解数据来源
这是数据分析的前提。除了我们面临的数据之外,数据分析更多的是隐藏在这些数据背后的各种服务。例如,当我们看到用户的消费记录时,它不仅可以在收银系统中购买商品,还可以获得会员系统完全减少的订单,活动管理系统的开放折扣产品或推荐系统的推荐。深入了解业务有助于更好地识别分析的维度,并快速查明问题和原因。
2.明确分析的目的
数据分析不是模型算法和可视化的积累,而是有目的地发现支撑某些决策的某些现象。因此,在分析之前,我们必须明确定义我们分析的目的,避免复制其他项目的分析内容,或随机组合手头的分析模型算法,这将导致对结果的分析。
3.多角度观察
要实现某种分析,您需要从多个角度观察数据,这样您不仅可以全面了解整个数据,还可以帮助发现潜在的新见解。例如,当我们需要找到潜在的成员时,最直接的方法当然是看看更多但不是成员的消费者。但从促销活动的角度来看,那些热衷于购买打折商品的人也是潜在会员,因为他们加入会员后会获得更多折扣。同时,从推荐系统的角度来看,对推荐系统推荐的产品满意的人更有可能加入会员计划。
准备好之后,让我们开始分析并开始分析。
什么是数据分析?
数据分析必须针对某些对象,首先要做的是通过数据描述这个对象。
基本统计
统计是最直接的方法,应用起来也很简单。常用方法包括总和,平均值,最大值和最小值,中值,方差,增长率,类型比率,分布,频率等。这里没有太多介绍。
聚类
“物体聚集在一起,人们被分组。” 聚类是无监督学习。群集可以将一组数据划分为多个类别。每个类别中的数据类似,但两个类别不同。群集有助于发现数据分布的特征,并可以大大减少分析的数据量。例如,在轨迹分析和预测中,通过聚类,我们会发现一个人主要出现在宿舍周围,食堂周围,教学楼周围的三个地方,所以当我们预测他在哪里时,你可以从纬度和经度。坐标分析成为对三个位置的分析。
特征分析
特征工程非常庞大。如上所述,数据和特征决定了机器学习的上限,模型和算法只能接近这个上限。特征工程包括特征提取和特征选择。由于其众多且复杂的算法,因此这里不再介绍。特征分析首先明确分析单位,包括时间,空间和类型。就像在轨迹预测中一样,分析每十分钟的位置比分析每秒纬度和经度的坐标更加实际,并且分析时间的位置太粗糙。然后是特征提取。有许多算法可用于特征提取,线性PCA(主成分分析),LDA(线性判别分析),ICA(独立成分分析),文本F-IDE,
数据发生了什么?
它发生了什么是正常的和异常的。我们通常更关注异常,所以我也会关注异常分析。数据发生的情况与用于分析的想法和方法一致,但仅适用于不同阶段,例如当前月份和上个月。对于异常分析,有两个主要部分,异常和推送警告。只要你注意警告的级别和推动它的人,推动警告就相对简单了。除了可以直接观察到的异常之外,异常发现可能需要更多关注他们的“暗物质”。所谓的暗物质是一种无法直接观察到的现象和相关性。
在判断异常的情况下,通常根据具体业务设置一些系数,并通过这些系数的变异发现潜在的异常。这些系数在轨迹分析中尤为重要。例如,如果我们想分析一个人的轨迹是否异常,我们首先会看到他是否出现在一个从未见过的地方。如果不是,则第二步使用轨迹矢量进行分析。例如,通过聚类,校长主要出现在教室,图书馆和他们的家中。假设每个地方花费的时间是每天8小时,因此形成了一个矢量 - (8,8,8)。如果我们采用另一个矢量(2,2,20),我们可以通过计算两个矢量之间的距离来找到异常,通常是欧几里德距离和余弦距离。
为什么会发生这种情况?
每当事情发生时,我们都会问为什么。深度挖掘和数据诊断是我们如何探究问题的原因,准确的问题诊断有利于做出正确的决策。通常,可以使用以下方法:
年度趋势分析
这是一个非常简单的方法,既可以观察我们的数据的过去和其他周期,更不用说这里了。
深入研究
钻探绝对是找到因果关系的最常见和最有效的方法,包括分层和拉动,直到找到根本原因。在钻井过程中,我们必须注意钻井的面积和方向,就像挖井一样。它不只是寻找任何方向的方向来获取水。取消某个商场的销售下降。为了找出销售下滑的原因,首先,我想找到销量下降幅度最大的产品。比如说,我们发现咖啡减少最多,我们应该问为什么咖啡销量会减少。
如果我们需要改变我们的策略并寻找过去销售良好且销售量非常低的产品,我们可以深入分析多个级别,首先只关注大的分类变化,例如服装,饮食等,然后继续从较大的类中深入研究。
相关分析
相关性分析是分析不同特征或数据之间的关系,以发现关键影响和业务驱动因素。常用的相关分析方法是协方差,相关系数,回归和信息熵。相关系数和回归也可以用于将在下面讨论的预测。相关性是回归的前提,相关系数表明两个变量之间存在关系,而回归则表明两个变量之间的关系。相关系数和回归也可以扩展到典型的相关分析(多变量)和多元回归。例如,经典的“啤酒和尿布问题” - 如果你想知道为什么啤酒销售增加,
还有什么会对数据产生影响?
然后我们使用我们的数据进行预测。有许多算法用于进行预测,但并非所有预测分析都需要用难以理解的算法来解决。例如,行业趋势,增长率,同比率,基本概率等有时可以解释问题。但在这里,我将介绍一些常见的预测方法:
特别要点
对于低实时性和连续性要求的预测,这绝对是最无忧的方法,但这与特定业务有关,因此必须熟悉业务和多视角观察。
分类和回归
分类和回归都构造并验证来自已知数据的函数,使得y = f(x)。对于未知的x,用f预测y。不同之处在于回归的输出是连续的,并且分类的输出是离散的。例如,我们预测明天的温度将与今天的温度相同,并且预测明天是下雨还是晴天是一种分类。分类方法包括逻辑回归,决策树和支持向量机,而回归分析通常使用线性回归。
当然,仍然存在许多预测算法,例如隐马尔可夫(HMM),最大熵,CRF等。仅需要基于预测数据的细节选择正确的方法。当然,如果我们想要准确地告诉数据的特征和需要预测的事情,这些可以是我们的算法工程师提出的非常好的建议。
该怎么办?
该怎么做才是数据分析的最终目标。让我们介绍一些可以使用的方法,即使您知道问题是什么并且不知道该怎么做:
拟合与图论
这是规划路线规划时最常用的。例如,当商店经常被抢劫时,我们可以在最容易被盗的地方偷运。然后我们可以连接这些地方并将它们安装到保安人员的巡逻中。类似地,您可以通过构建图形并使用找到最短路径的算法(Dijkstra,Floyd等)来构建巡逻路径。
协同过滤
协同过滤是一种使用集体智慧的方式。就像经典的面试问题一样,当你遇到一个从未遇到过的问题时,你应该怎么做?答案是问那些比你经历过更多经验的人。协作过滤在推荐引擎中使用最多。总的想法是找到ñ类似用户在特定的用户,则建议用户喜欢的产品,或者找到的第一个ñ当前用户喜欢的项目,然后选择米类似项目ñ项目推荐给当前用户。
数据分析师也有一种非常普遍的情况。这是在您获取数据时,但没有固定目的。这称为探索性分析。在这种情况下,借助数据分析工具,我们可以做一些一般的探索性分析,查看数据趋势,并逐步加深我们的见解。
对于公司而言,探索性分析的工具主要是报告和BI。一个完美的例子是FineReport ,它可以生成各种复杂的报告,以及用于数据可视化的大屏幕。在报告和商业智能的基础上,可以增加预警系统,如提醒异常指标,使领导者只需关注这些指标,而不必查看所有指标,以节省时间,提高效率。如有必要,我们可以查看相应的报告或BI表示,这是企业探索性分析的应用方法之一。