“为工作使用正确的工具!” 这句话一开始听起来很简单,但在实际方面实施起来却非常复杂。 早期的初创公司发现很难选择生态系统中可用的各种工具,因为它们的数据将如何演变是非常不可预测的。需要现代数据堆栈 在过去 10 年中,软件行业在以下方面有所增长:计算能力:AWS、Google Cloud 等公共云提供商以标准市场成本提供巨大的计算能力。数据源:物联网生态系统、智能设备的兴起导致每天产生的数据量呈
原创 2023-06-25 10:57:01
78阅读
现代数据栈作为首选云数据架构在科技界迅速崛起,尽管它的受欢迎程度一直在迅速上升,但有时它的定义
原创 2022-06-01 19:38:33
409阅读
DataOps,即Data和Operations组合。是在数据分析过程中,提升数据质量,减少数据分析的周期时间,提高效率的一系列实践,现在逐渐发展成了一门方法论。DataOps适用于从数据...
转载 2022-01-05 09:55:58
130阅读
IT系统是在世界各地最组织行动的一个关键方面。主要关注的问题之一就是业务连续性;公司依靠其信息系统来运行其业务。如果系统变得不可用,可能会损害公司的业务,或完全停止。有必要提供可靠的基础设施为它操作,以尽量减少中断的任何机会。信息安全也是一个问题,并为这个缘故,数据中心提供一个安全的环境,将有安全隐患的可能性降至最低。数据中心因此必须保持很高的标准保证完整性和其托管的计算机环境的功能。通过这种冗余
转载 精选 2013-10-14 22:11:22
607阅读
特征工程是任何 ML 工作流程的关键部分。 在 Continual 中,我们认为它实际上是 ML 流程中最具影响力的部分,并且应该对其应用最多的人工干预。 然而,在 ML 文献中,该术语经常在几个不同的主题中被过度使用,我们希望为 Continual 的用户提供一些引导以了解该概念。 在本文中,我们将把特征工程分解为几个不同的概念,并为
“为工作使用正确的工具!”这句话一开始听
构建自己的数据仓库时要考虑的基本因素我们用过很多数据仓库。当我们的客户问我们,对于他们成长中的公司来说,最好的数据仓库是什么时,我们会根据他们的具体需求来考虑答案。通常,他们需要几乎实时的数据,价格低廉,不需要维护数据仓库基础设施。在这种情况下,我们建议他们使用现代数据仓库,如Redshift, BigQuery,或Snowflake。大多数现代数据仓库解决方案都设计为使用原始数据。它允许动态地
原创 2023-02-26 13:49:49
187阅读
阿里云技术专家徐榜江和阮航,在 Flink Forward Asia 2022 数据集成专场的分享。
原创 2023-05-10 22:06:33
217阅读
Daniel Avancini 通过概述数据堆栈的历史和现代数据堆栈的特征,提供了一些关于现代数据堆栈的意义的见解。译自What Does the Modern Data Stack Actually Mean?,作者 Daniel Avancini。如果你要列出人们喜欢到处乱用但通常难以精确定义的 IT 流行语,现代数据栈将是一个不错的候选词。尽管现在有很多关于为了更有效地处理数据而对数据栈进行
翻译 2024-06-14 11:15:53
54阅读
DevOps 席卷软件工程世界之前,一旦应用程序启动并运行,开发人员就会一头雾水。工程师不是第一个知道何时发生中断,而是只会发现客户或利益相关者何时抱怨“网站滞后”或 503 页面过多。不幸的是,这导致了同样的错误反复出现,因为开发人员缺乏对应用程序性能的洞察力,并且不知道在出现故障时从哪里开始调试他们的代码。解决方案?现在广泛采用的 DevOps 概念是一种新方法,它要求开发人员 (Dev) 和
原创 2023-06-12 17:19:34
122阅读
用外行人的话来说,火箭专家就是一个具有火箭科学知识(并在火箭科学方面具有惊人经验)的人。要成为一名数据科学家并不难。(我说的不难,并不是说每个小孩都可以担任数据科学家。要知道,成为一名喷气式飞行员并不需要掌握火箭科学方面的知识,但仍然也需要付出很多努力。)在和 Linkedln 上的许多数据科学家进行交流之后,我写下了这篇文章,收集了其他人 30 多年的经验。在本文中,你将会发现数据科学家很多令人
原创 2021-03-29 17:40:05
453阅读
构建自己的数据仓库时要考虑的基本因素我们用过很多数据仓库。当我们的客户问我们,对于他
原创 2022-08-10 09:57:32
104阅读
一、数据库技术进入战略转折点今年大会的主题是Hadoop十年。2006年雅虎等团队开始研发Hadoop技术至今已整整十年。在此之间技术发展迅速,Hadoop上的生态系统逐渐扩大。各个行业的用户逐渐开始基于这一新的技术来开发全新的应用,甚至将原先的应用向Hadoop之上进行迁移。未来,Hadoop会成为企业数据中心的核心,星环的产品也定位成Data Hub。经过这10年的发展,今年开始进入一个战略转
原创 2021-05-14 09:20:09
519阅读
数据管理和数据集成是任何组织数字化转型战略的关键组成部分。在当今的全渠道业务环境中,组织必须实时访问和分析来自各种来源的大规模数据。然而,传统的数据管理方法对于这些要求来说常常太慢。数据编织架构可以帮助克服这些问题。对于寻求数字加速的组织来说,数据编织非常有益。由于这是一个相对较新的概念,许多企业领导者可能并不了解。在本文中,我们将探讨数据编织、其用例及其优势。1.什么是数据编织?数据编织是一个单
翻译 2024-04-08 10:04:16
136阅读
在构建数据科学产品时,一个重要的方面是让您的数据可用并准备使用。您需要一个平台将数据带到一起,并在整个公司中服务。但是你如何发展这样一个数据平台?阅读数据仓库,数据湖泊,湖泊和数据网格时,很容易丢失。它们是如何不同的,什么应该是第一步? 不同的数据平台解决方案 > Databricks’ persp
原创 2023-06-12 10:14:17
106阅读
1、国际数字电影标准  1)DCI(Digital Cinema Initiatives数字影院系统规范)  美国好莱坞七大制片公司——Disney、MGM、Fox、Paramount Pictures、Sony Pictures Entertainment、Universal Studios和Warner Bros于2002年联合成立了DCI机构,并于2007年和2008年分别发
原创 2021-08-12 12:00:15
1797阅读
数据工程架构设计与现代数据栈实践指南 一、现代数据架构设计 1.1 数据架构演进路线 # 传统数据仓库架构示例 class TraditionalDataWarehouse: def __init__(self): self.etl_processes = [] self.staging_area = {} self.data_marts =
原创 4月前
55阅读
保持消息顺序就像维护高速公路的车道秩序,需要合理的车道划分(分区策略)和严格的交通规则(消费配置)”“在Kafk
原创 1月前
39阅读
在当今数据驱动的世界中,企业需要处理和分析海量的实时数据流。本文将深入探讨构建现代数据架构的四个关键技术组件:时间序列数据库、流处理系统、事件驱动架构和消息队列。这些技术共同构成了处理实时数据的强大基础架构。 时间序列数据库:专为时序数据优化的存储方案 时间序列数据库(TSDB)是专门为存储和查询时间戳数据优化的数据库系统。与传统关系型数据库相比,TSDB在处理时间序列数据时展现出显著优势:
原创 1月前
39阅读
mage-ai 是一个可以替换airflow 的现代数据pipeline 平台 包含的特性 友好的开发体验 支持python,sql,r 语言 不以来DAG 的可开发模式 交互式代码 数据优先 基于云的协作 快速部署 扩展简单 提供可观测性 说明 官方提供来的demo 站点,可以方便的体验学习,目前
原创 2023-11-01 09:22:26
219阅读
  • 1
  • 2
  • 3
  • 4
  • 5