公众号JavaEdge的博客_Java,Mysql,消息队列,Redis,系统设计原创(28)

如何快速开发大数据系统

这可视化性能数据从何来？如何在图中将性能指标和任务进度结合起来，可以一目了然看清应用在不同运行阶段的资源使用状况呢？为了Spark性能优化，专门大数据性能测试工具Dew。Dew也是个分布式大数据系统，部署在整个Hadoop大数据集群的所有服务器上。可实时采集服务器上的性能数据和作业日志，收集起来以后解析这些日志数据，将作业运行时间和采集性能指标的时间在同一个坐标系绘制出来，就得到上面的可视

服务器

大数据

发送消息

原创精选 2022-04-30 23:11:32 2316 阅读 yyds干货盘点

深入理解Spark原理，从性能优化入手

1 Spark任务文件初始化调优首先进行性能测试，发现这个视频图谱N度级联关系应用分为5个job，最后一个job为保存结果到HDFS，其余job为同样计算过程的反复迭代。但是发现第一个job比其他job又多了个计算阶段stage，如图中红圈所示。通过阅读程序代码，发现第一个job需要初始化一个空数组，从而产生了一个stage，但是这个stage在性能测试结果上显示，花费了14秒的时间，远远超出合理

服务器

spark

网络通信

原创推荐 2022-04-29 22:40:14 3417 阅读 yyds干货盘点

不讲废话，全程硬核，处理结构化数据的终极解决方案

现代Java应用架构越来越强调数据存储和处理分离，以获得更好的可维护性、可扩展性以及可移植性，比如火热的微服务就是一种典型。这种架构通常要求业务逻辑要在Java程序中实现，而不是像传统应用架构中放在数据库中。应用中的业务逻辑大都会涉及结构化数据处理。数据库（SQL）中对这类任务有较丰富的支持

java

结构化

sql

数据

原创 2022-04-28 23:57:16 2594 阅读

大数据技术学习带来的思考

技术场景大数据技术可分类如下：存储计算资源管理HDFS最基本的存储技术。日常应用把通过各种渠道得到的数据，如关系数据库、日志、埋点、爬虫数据都存储到HDFS，供后续使用。HBaseNoSQL英杰，可划分到存储类别，它的底层存储也用到HDFS。主要用途某些场景代替MySQL数据存储访问，利用可伸缩特性，存储比MySQL多得多的数据量。

spark

数据

mapreduce

原创 2022-04-28 23:56:58 2156 阅读

Java 并发编程实战-创建和执行任务的最佳实践

若无法通过并行流实现并发，则必须创建并运行自己的任务。运行任务的理想Java 8方法就是CompletableFuture。Java并发的历史始于非常原始和有问题的机制，并且充满各种尝试的优化。本文将展示一个规范形式，表示创建和运行任务的最简单，最好的方法。Java初期通过直接创建自己的Thread对象来使用线程

java

线程安全

构造函数

原创 2022-04-28 23:56:49 9695 阅读

查看Mac上已连接WiFi的密码？

command + 空格，聚焦搜索“钥匙”在其左侧的“钥匙串”列表中选择“系统”，右侧栏就会出现与系统有关的各类密钥。找到你需要连接的WiFi名称，右击，选择“将密码拷贝到剪贴板”：

macos

剪贴板

快捷键

钥匙串

原创 2022-04-28 23:56:46 407 阅读

Timestamp.valueOf API 使用详解

将使用 JDBC 时间戳转义格式的 String 对象转换为 Timestamp 值。Timestamp date = Timestamp.valueOf("2022-04-19 00:00:00");System.out.println(da

java

编程语言

转义

时间戳

原创 2022-04-28 23:56:18 2445 阅读

Spark性能优化案例

主流大数据技术都是开源的：Hadoop大数据存储与计算产品Hive、Spark SQL大数据仓库Storm、Flink这样的大数据流计算产品Mahout、MLlib大数据机器学习算法库如何参与Apache软件开发，如何进行软件性能优化及Spark源码优化：更深入、系统地了解软件性能优化更深入了解Spark的一些运行机制，同时也可以了解Apache开源社区的运作模式。因为我们在使用各类大数据产品的时

大数据

性能优化

spark

原创精选 2022-04-28 23:00:26 2544 阅读 1评论 yyds干货盘点

从零开发大数据SQL引擎

学习大数据技术的核心原理，掌握一些高效的思考和思维方式，构建自己的技术知识体系。明白了原理，有时甚至不需要学习，顺着原理就可以推导出各种实现细节。各种知识表象看杂乱无章，若只是学习繁杂知识点，固然自己的知识面是有限的，并且遇到问题的应变能力也很难提高。所以有些高手看起来似乎无所不知，不论谈论起什么技术，都能头头是道，其实并不是他们学习、掌握了所有技术，而是他们是在谈到这个问题时，才开始进行推导，并

hive

sql

语法树

原创 2022-04-27 23:35:16 1867 阅读 yyds干货盘点

大数据技术学习带来的思考

技术场景大数据技术可分类如下：存储计算资源管理HDFS最基本的存储技术。日常应用把通过各种渠道得到的数据，如关系数据库、日志、埋点、爬虫数据都存储到HDFS，供后续使用。HBaseNoSQL英杰，可划分到存储类别，它的底层存储也用到HDFS。主要用途某些场景代替MySQL数据存储访问，利用可伸缩特性，存储比MySQL多得多的数据量。比如滴滴司机每隔几s就将当前GPS数据上传，而滴滴司机数量号称千万

数据

spark

mapreduce

原创精选 2022-04-26 22:41:39 6868 阅读 yyds干货盘点

JDK批量异步任务最强工具CompletionService

如何优化一个查询各个价格接口的代码？若使用“ThreadPoolExecutor+Future”，可能优化如下：三个线程异步执行查询价格，通过三次调用Future的get()方法获取结果，之后将查询结果保存在MySQL。若获取price1耗时很长，那么即便获取price2耗时短，也无法让保存price2的操作先执行，因为主线程都阻塞在 f1.get()。这种问题如何解决呢？加个阻塞队列！获

阻塞队列

线程池

异步任务

原创 2022-04-25 23:35:41 2245 阅读 yyds干货盘点

任务终止的最佳实践

设置任务周期性检查的标志，然后任务就能通过自己的shutdown进程并正常终止。不是在任务中随机关闭线程，而是要求任务在到达一个较好时机自行终止。这总能产生比中断更好的结果以及更易理解、更合理的代码。以这种方式终止任务听起来很简单：设置任务可以看到的boolean flag。编写任务，以便定期检查标志并执行正常终止。这实际上就是你所做的，但有个问题：我们的旧克星，共同的可变状态。若该标志能被另一个

java

线程安全

ide

原创精选 2022-04-24 23:55:39 1767 阅读 yyds干货盘点

Java 并发编程实战-创建和执行任务的最佳实践

若无法通过并行流实现并发，则必须创建并运行自己的任务。运行任务的理想Java 8方法就是CompletableFuture。Java并发的历史始于非常原始和有问题的机制，并且充满各种尝试的优化。本文将展示一个规范形式，表示创建和运行任务的最简单，最好的方法。Java初期通过直接创建自己的Thread对象来使用线程，甚至子类化来创建特定“任务线程”对象。手动调用构造函数并自己启动线程。创建所有这些线

java

线程安全

构造函数

原创推荐 2022-04-23 21:18:39 4310 阅读 2点赞 yyds干货盘点

SynchronousQueue 源码解析

1 简介SynchronousQueue 是一种特立独行的队列，其本身是没有容量的，比如调用者放一个数据到队列中，调用者是不能够立马返回的，调用者必须等待别人把我放进去的数据消费掉了，才能够返回。SynchronousQueue 在 MQ 中被大量使用，本文就让我们从源码来看下 SynchronousQueue 到底是如何实现这种功能的呢。2 整体架构不像ArrayBlockingQueue

数据

堆栈

赋值

原创推荐 2022-04-22 23:57:02 3851 阅读 yyds干货盘点

ZooKeeper在大数据系统中的意义

服务器集群环境的各种故障随时可能发生，多台服务器对一个数据的记录保持一致是一项重大挑战。## HDFS为保证集群的高可用，需部署两台NameNode服务器：一台作为主服务器一台作为从服务器当主服务器不可用，就切换到从服务器访问。若不同应用程序（Client）或DataNode做出的关于主服务器是否可用的判断不同，就会导致HDFS集群混乱。比如两个应用程序都要对一个文件路径执行写操作，但若这俩应用程

服务器

数据

应用程序

原创精选 2022-04-21 22:31:55 6280 阅读 2点赞 1收藏 yyds干货盘点

mybatis配置分页插件

@Configuration public class MybatisConfig { @Bean public PaginationInterceptor paginationInterceptor() { return new PaginationInterceptor(); } }高版本SpringBoot中，会提示这种写法已过时, 所以采用另一

sql

分页

d3

原创精选 2022-04-20 23:07:55 2749 阅读 yyds干货盘点

Spark架构原理

相比MapReduce僵化的Map与Reduce分阶段计算相比，Spark的计算框架更加富有弹性和灵活性，运行性能更佳。1 Spark的计算阶段MapReduce一个应用一次只运行一个map和一个reduceSpark可根据应用的复杂度，分割成更多的计算阶段（stage），组成一个有向无环图DAG，Spark任务调度器可根据DAG的依赖关系执行计算阶段逻辑回归机器学习性能Spark比MapRedu

spark

数据

mapreduce

原创 2022-04-19 20:57:36 1973 阅读 yyds干货盘点

Arrays.asList() vs Collections.singletonList()

与 Collections.singletonList(something) 相比，使用 Arrays.asList(something) 来制作一个列表是否有优势（或有很大的不同）？后者也使返回的列表不可变。Collections.singletonList(sth)不可变Arrays.asList(sth)是 Array 的固定大小的 List 表示，其中 List 和 Array 在堆中连接Arrays.asList(something) 允许对其进行非结构性更改，这会反映到 Li

java

数组

静态类

其它

原创 2022-04-19 16:04:42 1681 阅读

代码重构实战-将值对象改为引用对象（Change Value to Reference）

动机一个数据结构中可能包含多个记录，而这些记录都关联到同一个逻辑数据结构。例如，我可能会读取一系列订单数据，其中有多条订单属于同一个顾客。遇到这样的共享关系，既能将顾客信息作为值对象看待，也能将其视为引用对象：若将其视为值对象，则每份订单数据中都会复制顾客的数据若将其视为引用对象，对于一个顾客，就只有一份数据结构，会有多个订单与之关联若顾客数据永不修改，则两种方式都合理。把同一份数据复制多次可能会造成一点困扰，但这种情况也很常见，不是太大问题。过多的数据复制有可能会造成内存占用的问题，但就跟

数据库

memcached

缓存

java

数据

原创 2022-04-19 16:04:41 1191 阅读

祖传shi山代码重构实战(01)-Extract Class提炼类

某个类做了应该由两个类做的事。建立一个新类，将相关的字段和函数从旧类移到新类。动机一个类应该是一个清楚的抽象，处理一些明确的责任。但实际工作中，类会不断扩展。你会在这儿加入一些功能，在那儿加入一些数据。给某个类添加一项新责任时，你会觉得不值得为这项责任分离出一个单独的类。于是，随着责任不断增加，这个类会变得过分复杂。很快，你的类变成一团乱麻。这样的类往往含有大量函数和数据，太大而不易理解。此时你需要考虑哪些部分可以分离出去，并将它们分离到一个单独的类。如果某些数据和某些函数总是一起出现，某些数据经

b树

数据结构

mysql

java

字段

原创 2022-04-19 16:04:41 1208 阅读

IDEA告警：Unnecessary unboxing ‘xxx.intValue()‘

显式编码拆箱已包装的原始数值。在Java5及以上的版本，拆箱是不必要的，可以安全地删除。那么 JDK5 到底做了啥？自动装箱（auto-boxing）与自动拆箱（auto-unboxing）Java语言的基本类型都有包装（wrapper）类型。需要包装类型，是因为许多Java核心类库的API都是面向对象。如Java的容器类，就只支持引用类型。当需要一个能存储数值的容器类时，往往定义一个存储包装类对象的容器。对基本类型的数值，需先将其转换为对应包装类，再存入容器。在Java程序中，这个转换可显式，也可隐

java

编程语言

包装类

自动装箱

其它

原创 2022-04-19 16:04:41 2065 阅读

用户系统设计

1 系统分析1.1 Scenario 场景注册、登录、查询、用户信息修改，哪个需求量最大？支持100M DAU。

数据库

memcached

缓存

数据

nosql

原创 2022-04-19 16:04:13 1324 阅读

线上异常日志没有堆栈信息

线上大量异常，查看日志，却只有java.lang.NullPointerException，无异常堆栈信息，无法异常的位置。只能在

java

堆栈

抛出异常

原创 2022-04-19 16:03:56 2207 阅读

BigTable的开源实现：HBase

Google发表GFS、MapReduce、BigTable三篇论文，号称“三驾马车”，开启了大数据的时代。GFS对应的Hadoop分布式文件系统HDFSMapReduce对应的Hadoop分布式计算框架MapReduceBigTable对应的NoSQL系统HBase，如何大规模处理海量数据在计算机数据存储领域，一直是关系数据库（RDBMS）的天下，以至于在传统企业的应用领域，许多应用系统设计都是

数据

字段

服务器

原创精选 2022-04-18 22:15:43 2318 阅读 2点赞 yyds干货盘点

Spark，一个奇迹的诞生

UC Berkeley的AMP Lab推出的Spark更快执行速度和更友好的编程接口，在推出后短短两年就迅速抢占MapReduce的市场份额，成为主流的大数据计算框架。Spark之前，人们并未对MapReduce执行速度不满，觉得这速度其实也还行，至于编程复杂度：Hive、Mahout封装了常用的MapReduce编程MapReduce已很简化分布式编程了Spark出现后，人们才不满MapRedu

spark

数据

mapreduce

原创精选 2022-04-16 19:13:40 1706 阅读 yyds干货盘点

Hive如何让MapReduce实现SQL操作

MapReduce简化了大数据编程的难度，使得大数据计算不再是高不可攀的技术圣殿，普通工程师也能使用MapReduce开发大数据程序。但是对于经常需要进行大数据计算的人，比如从事研究商业智能（BI）的数据分析师来说，他们通常使用SQL进行大数据分析和统计，MapReduce编程还是有一定的门槛。而且如果每次统计和分析都开发相应的MapReduce程序，成本也确实太高了。有没有更简单的办法，可以直接

sql

hive

mapreduce

原创精选 2022-04-15 22:47:17 2389 阅读 1收藏 yyds干货盘点

大数据学习常见问题

Hadoop几个主要产品的架构都是一主多从。HDFS，一个NameNode，多个DataNode；MapReduce 1，一个JobTracker，多个TaskTracker；Yarn，一个ResourceManager，多个NodeManager。Storm，一个Nimbus，多个Supervisor；Spark，一个Master，多个Slave。大数据因为要对数据和计算任务进行统一管理，所以和

服务器

数据

应用服务器

原创精选 2022-04-14 17:09:42 2097 阅读 2点赞 yyds干货盘点

为你的项目引入特例！

动机一种常见的重复代码：一个数据结构的使用者都在检查某个特殊的值，并且当该特殊值出现时所做的处理也都相同。若发现项目中有多处以同样方式应对同一个特殊值，我就会想要把这个处理逻辑收拢到一处。处理这种情况的一个好办法是使用“特例”（Special Case）模式：创建一个特例元素，用以表达对这种特例的共用行为的处理。这样我就能用一个函数调用取代大部分特例检查逻辑。特例有几种表现形式：若只需从该对象读

数据结构

函数调用

客户端

原创 2022-04-13 23:45:35 1617 阅读 yyds干货盘点

用多态处理变体逻辑

鸟类型体系是一个清晰的泛化体系：父类是抽象的“鸟”，子类是各种具体鸟。这是教科书中经常讨论的继承和多态，但并非实践中使用继承的唯一方式。而且这种方式很可能不是最常用或最好。另一种使用继承：我想表达某个对象与另一个对象大体类似，但又有一些不同之处。有一家评级机构，要对远洋航船的航行进行投资评级。这家评级机构会给出“A”或“B”两种评级，取决于多种风险和盈利潜力的因素。在评估风险时，既要考虑航程本身

子类

超类

ide

原创 2022-04-11 21:35:31 2200 阅读 yyds干货盘点

以多态取代条件表达式（Replace Conditional with Polymorphism）

1 动机复杂的条件逻辑是编程中最难理解的东西之一，因此我一直在寻求给条件逻辑添加结构。很多时候，我发现可以将条件逻辑拆分到不同的场景（或者叫高阶用例），从而拆解复杂的条件逻辑。这种拆分有时用条件逻辑本身的结构就足以表达，但使用类和多态能把逻辑的拆分表述得更清晰。 2 常见场景2.1 构造一组类型，每个类型处理各自的一种条件逻辑例如，我会注意到，图书、音乐、食品的处理方式不同，这是因为它们分属不同类

java

条件逻辑

多态

原创精选 2022-04-10 19:29:59 2501 阅读 yyds干货盘点

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

编程严选网

如何快速开发大数据系统

深入理解Spark原理，从性能优化入手

不讲废话，全程硬核，处理结构化数据的终极解决方案

大数据技术学习带来的思考

Java 并发编程实战-创建和执行任务的最佳实践

查看Mac上已连接WiFi的密码？

Timestamp.valueOf API 使用详解

Spark性能优化案例

从零开发大数据SQL引擎

大数据技术学习带来的思考

JDK批量异步任务最强工具CompletionService

任务终止的最佳实践

Java 并发编程实战-创建和执行任务的最佳实践

SynchronousQueue 源码解析

ZooKeeper在大数据系统中的意义

mybatis配置分页插件

Spark架构原理

Arrays.asList() vs Collections.singletonList()

代码重构实战-将值对象改为引用对象（Change Value to Reference）

祖传shi山代码重构实战(01)-Extract Class提炼类

IDEA告警：Unnecessary unboxing ‘xxx.intValue()‘

用户系统设计

线上异常日志没有堆栈信息

BigTable的开源实现：HBase

Spark，一个奇迹的诞生

Hive如何让MapReduce实现SQL操作

大数据学习常见问题

为你的项目引入特例！

用多态处理变体逻辑

以多态取代条件表达式（Replace Conditional with Polymorphism）

欢迎