agiledon的博客_大数据

使用Spark读取并分析二进制文件

需求客户希望通过spark来分析二进制文件中0和1的数量以及占比。如果要分析的是目录，则针对目录下的每个文件单独进行分析。分析后的结果保存与被分析文件同名的日志文件中，内容包括0和1字符的数量与占比。要求：如果值换算为二进制不足八位，则需要在左侧填充0。可以在linux下查看二进制文件的内容。命令： xxd –b –c 1 filename -c 1是显示1列1个字符，-b是

Spark

原创 2021-07-22 18:06:47 1595 阅读

大数据流处理平台的技术选型参考

选择太多，是一件好事情，不过也容易乱花渐欲迷人眼。倘若每个平台（技术）都去动手操练一下，似乎又太耗时间。通过阅读一些文档，可以帮我们快速做一次筛选。在将选择范围进一步缩小后，接下来就可以结合自己的应用场景去深入Spike，做深度的甄别，这是我做技术选型的一个方法。技术没有最好，只有最适用。在做技术选型时，需要选择适合需求、适合项目类型、适合团队的技术。这是实用主义的判断，而非理想主义的追捧。若是

流处理平台

原创 2021-07-22 18:01:16 924 阅读

Flink分布式程序的异常处理

在我们的数据平台产品中，为了简化开发，对Flink做了一层封装，定义了Job和Flow的抽象。一个Job其实就是Flink的一个作业，每个Job可以定义多个Flow，一个Flow可以理解为是Flink的一个DataStream，利用Job传递的StreamExecutionEnvironment可以在Flow中添加包括Source与Sink的多个算子。 Job与Flow之间的关系可以利用自定义的@

Flink

原创 2021-07-22 16:36:06 2040 阅读

贝叶斯定理与直觉

本文为阅读 "Data Science from Scratch" 之笔记，文中案例、公式分析皆来自此书让我们先来看看生活中的一个小例子。假设有某种疾病D，在10000人中会有1人患此病；又假设对患此病的人进行测试，测试为阳性的比例达到99%，也就是说100名患者中，有99名患者检测结果皆为阳性（

bigdata

原创 2021-07-22 11:31:06 576 阅读

剖析大数据平台的数据源

我在一次社区活动中做过一次分享，演讲题目为《大数据平台架构技术选型与场景运用》。在演讲中，我主要分析了大数据平台架构的生态环境，并主要以数据源、数据采集、数据存储与数据处理四个方面展开分析与讲解，并结合具体的技术选型与需求场景，给出了我个人对大数据平台的理解。本文是演讲内容的第一部分。大数据平台是

bigdata

大数据

原创 2021-07-22 11:29:36 660 阅读

剖析大数据平台的数据采集

我在一次社区活动中做过一次分享，演讲题目为《大数据平台架构技术选型与场景运用》。在演讲中，我主要分析了大数据平台架构的生态环境，并主要以数据源、数据采集、数据存储与数据处理四个方面展开分析与讲解，并结合具体的技术选型与需求场景，给出了我个人对大数据平台的理解。本文讲解数据采集部分。数据采集的设计，

bigdata

大数据

原创 2021-07-22 11:29:35 569 阅读

剖析大数据平台的数据存储

我在一次社区活动中做过一次分享，演讲题目为《大数据平台架构技术选型与场景运用》。在演讲中，我主要分析了大数据平台架构的生态环境，并主要以数据源、数据采集、数据存储与数据处理四个方面展开分析与讲解，并结合具体的技术选型与需求场景，给出了我个人对大数据平台的理解。本文讲解数据存储部分。数据作为一种资产

bigdata

大数据

原创 2021-07-22 11:29:34 542 阅读

剖析大数据平台的数据处理

我在一次社区活动中做过一次分享，演讲题目为《大数据平台架构技术选型与场景运用》。在演讲中，我主要分析了大数据平台架构的生态环境，并主要以数据源、数据采集、数据存储与数据处理四个方面展开分析与讲解，并结合具体的技术选型与需求场景，给出了我个人对大数据平台的理解。本文讲解数据处理部分。无论是采集数据，

bigdata

大数据

原创 2021-07-22 11:29:33 464 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

mb60f8e2395d9d6的博客

使用Spark读取并分析二进制文件

大数据流处理平台的技术选型参考

Flink分布式程序的异常处理

贝叶斯定理与直觉

剖析大数据平台的数据源

剖析大数据平台的数据采集

剖析大数据平台的数据存储

剖析大数据平台的数据处理

欢迎