一、Spark 架构与优化器1.Spark架构 (重点)2.Spark优化器二、Spark+SQL的API (重点)1.DataSet简介2.DataFrame简介3.RDD与DF/DS的创建4.常用操作5、类型转换三、Spark外部数据源操作 (重点)1.Parquet文件(默认文件)2.Hive表3.MySQL表(MySQL)四、Spark+SQL的函数1.内置函数(org.apache.sp
转载 2024-05-30 09:54:38
114阅读
MyBatis–查询缓存查询缓存的使用,主要是为了提高查询访问速度。将用户对同一数据的重复查询过程简化,不再每次均从数据库查询获取结果数据,从而提高访问速度。MyBatis的查询缓存机制,根据缓存区的作用域(生命周期)可划分为两种:一级缓存与二级缓存一、一级查询缓存MyBatis一级缓存是基于org.apache.ibatis.cache.impl.PerpetualCache类的HashMap本
转载 2024-07-14 08:04:03
41阅读
# Spring Boot 集成 MySQL、Hikari 和 Presto 随着大数据和实时分析的不断发展,越来越多的项目需要快速、灵活的数据存储和处理解决方案。在这篇文章中,我们将探索如何将 Spring Boot 应用程序与 MySQL 数据库、Hikari CP 连接池以及 Presto 查询引擎集成。本篇文章将提供实际代码示例,并详细解释每一个步骤。 ## 什么是 Spring Bo
原创 10月前
149阅读
**达梦数据守护集群配置(DCP实战学习) 达梦数据守护集群配置一、安装DM8软件二、IP地址及配置规划如下表三、配置步骤1.安装DM82.初始化数据库3.主备库做备份恢复4.配置参数文件5.启动主库6.启动备库7.配置监视器8. 启动主备守护进程9. 启动监视器进程四、测试同步五、主备库注册 一、安装DM8软件使用VirtualBox安装三台虚拟机.操作系统:中标麒麟数据库版本:dm8二、IP地
在会使用hibernate 和spring框架后 两个框架的整合就变的相当容易了,为什么要整合Hibernate?1、使用Spring的IOC功能管理SessionFactory对象 LocalSessionFactoryBean2、使用Spring管理Session对象  HibernateTemplate3、使用Spring的功能实现声明式的事务管理第一步:搭建h
转载 2024-04-05 13:48:50
89阅读
hikari数据库连接池(1)Hikari 光(2)Hikari 是什么?HikariCP是现在比较快,而且轻量的连
原创 2022-09-15 16:52:09
61阅读
Spring Boot 数据库连接池 Hikari 介绍介绍The HikariCP design aesthetic is Minimalism. In keeping with the simple is better or less is more design philosophy, some configuration axis are intentionally left out.
转载 2024-04-16 13:28:27
555阅读
Hue中spark 实现提交运行源码过程一.简介1.1 Hue notebook在Hue3.8版本之前,spark是以UI组件进行展示的。在3.8版本之后,为了支持不同语言例如python,scala并提供一个类似REPL(类似于一个终端可以编辑所有变成语言)的环境。Hue提供了notebook组件并将关于spark的运行逻辑放置在notebook UI中执行。为了执行Spark作业,需要安装Li
转载 2024-06-02 22:34:57
71阅读
一、版本说明Spark 针对 Kafka 的不同版本,提供了两套整合方案:spark-streaming-kafka-0-8 和 spark-streaming-kafka-0-10,其主要区别如下:spark-streaming-kafka-0-8spark-streaming-kafka-0-10Kafka 版本0.8.2.1 or higher0.10.0 or higherAP 状态Dep
转载 2023-08-06 18:23:34
62阅读
AS WE ALL KNOW,学机器学习的一般都是从python+sklearn开始学,适用于数据量不大的场景(这里就别计较“不大”具体指标是啥了,哈哈)数据量大了,就需要用到其他技术了,如:spark, tensorflow,当然也有其他技术,此处略过一坨字... 先来看看如何让这3个集成起来吧(WINDOWS环境):pycharm(python开发环境), pyspark.
转载 2023-08-13 18:09:29
173阅读
上篇文章简单介绍了ES-Hadoop插件的功能和使用场景,本篇就来看下如何使用ES-Hadoop里面的ES-Spark插件,来完成使用spark想es里面大批量插入数据。 这里说明下ES-Hadoop是一个fat的maven依赖,也就是引入这个包会导入许多额外的依赖,不建议这么搞,除非是测试为了方便用的,实际情况是ES也单独提供了每个不同框架的mini包
转载 2023-10-05 12:54:45
149阅读
前言前面介绍了TinkerPop集成Neo4j的配置方法,并且实现了HA操作。这里有一个突出问题就是不管是使用Neo4j,还是自带的TinkerGraph都不可避免的面临一个问题——大数据量场景,也即分布式问题。鉴于此,Tinkerpop还提供了和Hadoop+Spark集成解决方案,从而解决单节点问题。但是由于Spark中的数据一致性问题,不能修改数据,所以这种方案不能修改数据,也不能新增数据
转载 2023-12-14 19:13:58
55阅读
最近刚开始接触大数据,一个日志分析系统,需要用Spark开发,Elasticsearch作为数据库来使用。所以第一步要解决的就是怎么从Spark去取Elasticsearch上的数据,下面是软件的版本信息。(基本原则是开发和集群的版本都要一致)开发环境 jdk: 1.8.0_91scala: 2.11.8spark: 2.1.0IntelliJ IDEA 2017.1.1(集成开发环境)集群环境
转载 2023-10-11 10:17:30
102阅读
6-7,使用spark-scala调用tensorflow2.0训练好的模型本篇文章介绍在spark中调用训练好的tensorflow模型进行预测的方法。本文内容的学习需要一定的spark和scala基础。如果使用pyspark的话会比较简单,只需要在每个excutor上用Python加载模型分别预测就可以了。但工程上为了性能考虑,通常使用的是scala版本的spark。本篇文章我们通过Tenso
必要设置es.resourceElasticsearch资源位置,在该位置读取和写入数据。需要格式 <index>/<type>es.resource.read(默认为es.resource)用于读取(但不写入)数据的Elasticsearch资源。在同一作业中将数据读取和写入不同的Elasticsearch索引时很有用。通常自动设置(“ Map / Reduce”模块除外
转载 2023-08-23 12:48:59
66阅读
最近在考虑Spark在消费Kafka 分区数据的过程中究竟反生了什么? 因为比较疑惑现有系统架构会不会遭遇这方面的瓶颈,遂决定去搞一把,一探究竟.关于Kafka做一下简短的总结,Kafka可参考附件1:多个TOPIC分布在多个Broker中每个TOPIC的数据以分区的方式分布在多个Broker中一个分区同时只能被一个Consumer消费同一个TOPIC允许被不同的Group重复消费,Group内不
转载 2023-08-10 17:28:22
66阅读
1 版本要求Spark版本:spark-2.3.0-bin-hadoop2.7 Phoenix版本:apache-phoenix-4.14.1-HBase-1.4-bin HBASE版本:hbase-1.4.2 上面的版本必须是对应的,否则会报错2 Phoenix + HBase + Spark整合A:安装HBASE,这里略,默认都会 B:Phoenix + HBASE整合,参考:,要注意的是支
转载 2023-12-14 10:56:27
87阅读
TensorFlow是谷歌提供的开源深度学习框架TensorFlowOnSpark: 是雅虎提供的集成Spark上的深度学习框架鉴于我们使用的是Spark核心计算框架,现在搭建TensorFlow ON Hadoop Yarn开发环境整体搭建步骤,https://github.com/yahoo/TensorFlowOnSpark/wiki/GetStarted_YARN网站上有详细介绍,主要
转载 2023-11-16 21:44:37
121阅读
springboot是自带hikari链接池的,直接在​​application.properties​​里面配置即可:spring.datasource.type=com.zaxxer.hikari.HikariDataSourcespring.datasource.hikari.minimum-idle=5spring.datasource.hikari.maximum-pool-size=1
原创 2023-02-28 09:59:24
306阅读
HikariCP 什么是数据库连接池:连接池是一种常用的技术,为什么需要连接池呢?这个需要从TCP说起。假如我们的服务器跟数据库没有部署在同一台机器,那么,服务器每次查询数据库都要先建立连接,一般都是TCP链接,建立连接就需要3次握手了,假设后台服务跟数据库的单程的访问时间需要10ms,那么光是建立连接就花了30ms,并且TCP还有慢启动的机制,实际上一次查询可能还不止1次TCP来回,查询效率就会
  • 1
  • 2
  • 3
  • 4
  • 5