连续智能,DataOps,数据民主化和数据网格是我最近观察到的数据和分析的四个主要趋势。 所有这些因素都可能在2021-21财年与您的业务相关,这不是因为它们是"最新的东西",而是因为存在三大推动这些趋势向前发展的潜在因素。 他们会以一种或另一种形式来找您。


4种趋势将在2021-2021年改变您的数据和分析策略_数据科学家

  > Analytics & data strategy: the three forces, data demand, data growth, and complexity growth with

  在本文中,我将解释:

  · 这三种力量将在未来十年内定义分析策略。

  · 这三种力量目前呈现出的四种趋势是什么,这些趋势将在2021-21年出现。

  · 通过与资源的链接可以更详尽地了解趋势,这比我以往所能理解的要好得多。

  让我们深入探讨会破坏您的分析策略的三种力量和四种趋势!

  趋势概述

  我一次又一次地偶然发现了四个趋势,我相信这四个趋势将在2021-21年与几乎每个分析领域相关。 这四个趋势是

  · 数据网格:数据不是副产品,而是实际产品。 生产团队的所有权。 ThoughtWorks引入的概念。

  · 数据民主化:为公司中的每个人(包括无技术雇员)访问大量数据,例如在AirBnB中使用(采用率接近50%)。

  · 持续智能:通过机器学习以及大量连续数据提取和处理来实现近乎实时的自动决策支持和制定。

  · DataOps:专注于通过数据交付价值,并介绍当今常见的软件工程实践,例如持续集成(CI)和持续交付(CD),以及将更多内容引入数据管道。

  但是,为什么这四个趋势变得如此重要? 我认为他们会这样做,因为有三大力量推动了这些趋势。

  推动这些趋势的潜在力量

  据我所知,推动这些趋势的潜在力量将在未来10年以上继续发展。 这就是我认为这些趋势还将持续一段时间的原因。

  对数据的需求不断增长:随着机器学习者,数据科学家以及其他发现越来越多应用的人的需求,对产品的数据需求正在飞速增长。 4年前,几乎任何公司的数据科学家和机器学习工程师都乐于将数据作为副产品使用,并将其从他们可以找到的任何地方撤出。 现在,越来越多的公司拥有100多名数据科学家和机器学习工程师,他们都需要适当地照顾数据。 公共API的使用正在爆炸式增长。 以及仅出于数据科学目的的公共和公司内部数据集。

  不断增长的数据量:可用数据以及捕获数据的设备的数量激增,似乎每三年翻一番。


4种趋势将在2021-2021年改变您的数据和分析策略_数据_02

  > (Source: Data Age 2025, forbes/sites/tomcoughlin/2021/11/27/175-zettabytes-by-2025

  市场日益复杂:我确实相信,随着市场的发展,我们所工作的市场和竞争环境变得越来越复杂。 定性的原因在" Edge:价值驱动的数字化转型"一书中给出。 我还想相信知识的增长与世界的复杂性相关,因此学术论文的指数增长可能是看到复杂性增长的另一个好点。


4种趋势将在2021-2021年改变您的数据和分析策略_机器学习_03

  > (Source: Jinha, Arif. (2010). Article 50 million: An estimate of the number of scholarly articles

  所有这些力量本质上为掌握数据处理技术并将其转变为决策和行动的公司带来了巨大的竞争优势。 让我们详细探讨有助于建立竞争优势的四个趋势。

  趋势一:持续智能的细节

  持续智能是现在存在的可能性,而以前是不存在的。

  是从数据到决策和行动的循环持续不断的可能性,而不是"一次"!

  事实证明,一个基本的"推荐引擎"可以在Amazon上向您显示产品推荐,从而可以对用户行为的改变或A / B测试的结果做出快速反应。 这些推荐引擎已经完成了从数据到行动到一个连续流程的循环。

  但是,这项技术的变体可以应用于几乎任何类型的动作和任何类型的数据。 它可能以其他形式出现,例如"决策支持"或统计信息,但确实存在。

  在其他公司中,此周期只是一次线性的事情,但在某些公司中,这已经变成了巨大的竞争优势。 例如Google搜索,亚马逊建议,二手车定价中的" wirkaufendeinauto.de"等等。

  情报循环是将行动创建的原始数据再次转换为新的决策和行动的方式。 ThoughtWorks对它的描述如下:


4种趋势将在2021-2021年改变您的数据和分析策略_java_04

  > (Source: thoughtworks/insights/articles/intelligent-enterprise-series-models-enter

  #1如何应对这种趋势:将公司置于智能成熟度模型上。 然后想一想,您所在行业中的其他公司可能正在这个领域。 这实际上决定了您是追赶追赶者,还是能够获得竞争优势。


4种趋势将在2021-2021年改变您的数据和分析策略_数据科学家_05

  > (Source: (Source: thoughtworks/insights/articles/intelligent-enterprise-series-mod

  #2不评估此趋势的原因:我认为没有理由不评估此趋势。 连续智能已经应用在您不会怀疑的行业,医院,工业组织中,以优化机器吞吐量并发现错误或损坏机器,并且贯穿整个行业。 如上所述,数据呈指数增长,其他公司也因此有机会破坏您的数据。 但是,我确实认为您公司的时间表取决于您的竞争环境以及内部情况。

  #3首先考虑其他趋势的原因:如果您没有为使公司中的数据可用而付出任何努力,则不要认为自己是数据驱动的或受数据启发的,而是您可能首先要考虑其他趋势。

  #4其他资源:ThoughtWorks提供了有关该主题的大量资源,特别好地解释了机器学习连续循环的工作方式,以及决策支持的外观:

  · ThoughtWorks编写的智能企业系列第1部分

  · ThoughtWorks编写的智能企业系列第2部分。

  · ThoughtWorks编写的智能企业系列第3部分。

  趋势2:详细了解DataOps

  DataOps是现在已采用适当形式的趋势的名称。 集成产品和价值观点以及将软件工程的当前最佳实践集成到常规数据工作的趋势。

  这种趋势是由DataOps宣言,dataKitchen&data Bricks公司推动的。

  DataOps意味着我们运用了DevOps思维方式,并结合了精益生产中常用的方法和敏捷的思维方式来处理数据。 关键模型包括如下所示的数据和想法管道的想法:


4种趋势将在2021-2021年改变您的数据和分析策略_数据科学家_06

  > (Source: (medium/data-ops/dataops-is-not-just-devops-for-data-6e03083157b7)

  #1为什么现在如此重要? 这三方面的力量都迫使数据和分析部门专注于在瞬息万变的环境中创造价值。 实际上,dataOps只是在整理需要正确完成的工作。

  #1评估此趋势的原因:如果您的公司和竞争环境变得越来越复杂,那么数据世界将随之而来。

  #2评估此趋势的原因:如果您的数据和分析团队正在努力在SCRUM之类的敏捷框架中工作,那么他们应该这样做。 如果您没有产品经理来负责您的分析和数据团队,那么应该这样做。

  #3进一步的资源:这种趋势没有采取系统的形式,但是一些信息是可取的,包括宣言和一些博客文章。 这是其中两个:

  · DataOps中博客文章

  · DataOps宣言

  数据民主化的细节

  一句话中的数据民主化意味着"为所有人提供数据访问权限"。 多年来,Airbnb,Zynga,eBay和Facebook等公司一直在积极地实现数据民主化。 有很多陷阱,也需要向这些公司学习很多东西,这就是为什么我已经写过关于它们的原因:


4种趋势将在2021-2021年改变您的数据和分析策略_机器学习_07

  > (Source: by me from a post on data-democratization)

  #1为什么现在如此重要? 世界日益复杂,这意味着实际上需要更多数据来制定决策。 没有它,在这个日趋复杂的世界中,其他决策方式(直觉)迟早会破灭。 实际上,数据量的增长意味着您必须提供给人们更多的数据。

  #2评估此趋势的原因:您公司中有多少人可以访问数据? 30%以下? 然后,您肯定处于行动下限(行业平均水平在30%至40%之间变化)。

  #3不评估此趋势的原因:您拥有大量的自助式分析设置? 直接SQL访问还是对您公司中的大多数人而言相当的东西? 因此,没有理由更深入地研究这一趋势。

  #4资源:

  · 我写了一篇关于这个话题的文章。

  · 博客文章解释了朝这个方向发展的一些原因。

  数据网格详细

  DDD,微服务和DevOps改变了我们在过去十年中开发软件的方式。 但是,分析部门的数据未能赶上这一步。 为了采用现代开发方法加速基于公司数据的决策,分析和软件团队需要进行更改。

  (1)软件团队必须将数据视为他们为其他人服务的产品,包括分析团队

  (2)分析团队必须在此基础上,停止堆积数据,而是按需提取数据

  (3)分析团队必须开始将其数据湖/数据仓库也视为数据产品。

  数据网格看起来可能像这样:


4种趋势将在2021-2021年改变您的数据和分析策略_机器学习_08

  > (Source: Z. Dehghani: martinfowler/articles/data-monolith-to-mesh.html)

  #1考虑构建数据网格的原因:复杂的域,庞大的组织结构,大量数据以及内部对数据的不断增长的需求都是考虑这种趋势的充分理由。

  #2不考虑数据网格的原因:如果您认为自己的域仍然很简单,容易,例如可以由一个分析部门进行管理,那么我认为没有理由切换到数据网格。 就像微服务一样,数据网格是灵活性(通过数据网格获得的)和复杂性(随着数据网格增长的)之间的折衷。 如果复杂性成本不值得,请采用集中式方法。

  #3资源:基于数据网格的资源在不断增长,在此我想重点介绍三个。

  · 原始数据网格文章来自ThoughtWorks的Z. Dehghani。

  · 我在该主题上写的更实用的版本。

  · Zalando网络研讨会解释了与ThoughtWorks一起实现的数据网格版本。

  · Zalando解释了他们的数据网格版本。

  仅此而已!

  我希望听到一些关于我可能会错过的其他趋势,您认为这三种力量如何推动未来分析策略的反馈。