前言在介绍spark thrift server 需要先介绍一下其与hiverserver2及spark-sql的关系与区别HiveServer2Hive提供了一个命令行终端,在安装了Hive的机器上,配置好了元数据信息数据库和指定了Hadoop的配置文件之后输入hive命令,就可以进入到hive的交互式终端,接下来只要编写SQL语句即可,这跟传统RDB数据库提供的终端是类似的。 启动hivese
转载 2023-09-27 13:49:41
84阅读
使用 TiUP cluster 在单机上模拟生产环境部署步骤 适用场景:希望用单台 Linux 服务器,体验 TiDB 最小的完整拓扑的集群,并模拟生产的部署步骤。 耗时:10 分钟 本节介绍如何参照 TiUP 最小拓扑的一个 YAML 文件部署 TiDB 集群。准备环境 准备一台部署主机,确保其软件满足需求:推荐安装 CentOS 7.3 及以上版本 这里使用centos7.6版本 CentOS
转载 2023-08-02 09:03:02
145阅读
### TiSpark集群部署 在大数据处理领域,Apache Spark是一个非常受欢迎的开源框架,用于高效地处理大规模数据。然而,随着数据量的不断增加,单个Spark集群的性能和扩展性可能会受到限制。为了解决这个问题,我们可以使用TiSpark部署一个分布式的Spark集群。 TiSpark是由PingCAP开发的一个开源项目,它将Spark与TiDB(一个分布式关系型数据库)结合起来,
原创 2024-01-18 07:10:52
42阅读
作者: Billmay Spark APISpark 主要提供以下四种拓展方式API局限版本Customized function or RDD无法支持 Spark SQL任意DataSource APIAPI 变动会比较频繁Before Spark 2.3: v1Spark 2.3-3.0: v1+v2After Spark 3.0: v1+新版 v2Catalyst Extension无法
原创 2022-12-26 14:16:25
194阅读
TiSpark是PingCAP为解决用户复杂OLAP(OLAP,联机分析处理,它使分析人员能够迅速、一致、交互的从各个方面观察信息,以达到深入理解数据的目的),需求而推出的产品。它借助Spark平台,同时融合TiKV分布式集群的优势,和TiDB一起为用户一站式解决HTAP(Hybrid Transactional/Analytical Processing,HTAP是混合OLTP和OLAP的系统,
转载 2024-02-01 11:01:41
47阅读
Spark的一些配置总结配置总结: 集群内存总量:(executor个数) * (SPARK_EXECUTOR_MEMORY+ spark.yarn.executor.memoryOverhead)+(SPARK_DRIVER_MEMORY+spark.yarn.driver.memoryOverhead)----------------------------------------------
转载 2023-08-26 12:57:00
118阅读
作者:张 原文来源:https://tidb.net/blog/b8f902a9 【是否原创】是 【首发渠道】TiDB 社区 【首发渠道链接】其他平台首发请附上对应链接 背景介绍 喜大普奔,TiSpark 2.5.0发布了,其中最重...
转载 2022-07-20 15:10:55
156阅读
使用spark-submit时,应用程序的jar包以及通过—jars选项包含的任意jar文件都会被自动传到集群中。spark-submit --class --master --jars1、绑定应用程序依赖如果代码依赖于其它项目,为了将代码分发到Spark集群,就需要将这些依赖一起打包到应用程序中去。sbt和Maven都有装配插件,只要在创建集成的jar时列出Spark和Hadoop需要的依
转载 2024-08-14 19:02:02
30阅读
TiDB集群体系结构 作者:周万春 微信:lovemysql3306 1、CAP分布式 CAP 理论是分布式系统的一个基础理论,它描述了任何一个分布式系统最多只能满足以下三个特性中的两个: 一致性(Consistency) 可用性(Availability) 分区容错性(Partition tolerance 2、TiDB整体架构 TiDB 有以下的一些优势:
转载 2023-08-28 23:17:02
115阅读
作者:张鱼小丸子-PingCAP TiSpark 服务安装 部署 测试 pingcap/TiSpark 项目地址,使用前阅读以下文档 TiSpark 用户指南(英文版本) 部署 TiSp...
转载 2022-08-13 07:55:22
278阅读
# 了解Tispark:加速大数据处理的利器 在大数据处理领域,高效地处理海量数据是一项重要且具有挑战性的任务。为了解决这一问题,一些工具和框架应运而生,其中Tispark是一个值得关注的工具之一。Tispark是由PingCAP开发的一个基于Apache Spark的分布式计算框架,可以与TiDB数据库无缝集成,加速大数据处理过程。 ## Tispark简介 Tispark结合了Apach
原创 2024-02-28 07:31:37
33阅读
# TiSpark使用指南 TiSpark 是一个为 Apache Spark 提供高性能访问 TiDB 的工具,优化了 Spark SQL 和 TiDB 的交互方式,适合进行大数据分析和实时数据处理。本文将介绍 TiSpark 的基本使用方法,通过代码示例展示如何在 Spark 环境中进行使用,最后附上一个简单的甘特图来展示其工作流程。 ## TiSpark 环境准备 使用 TiSpark
原创 2024-10-06 05:13:03
78阅读
# TiSpark安装指南 TiSpark是一个开源项目,它结合了Apache Spark和TiDB,允许用户使用Spark SQL查询和分析TiDB中的数据。本文旨在为您提供TiSpark的安装过程以及一些基本的示例,以帮助您快速上手。 ## 安装前准备 在开始TiSpark的安装之前,请确保您已经安装了以下组件: - **TiDB**:TiDB是一个分布式数据库,您可以在[TiDB官方
原创 11月前
92阅读
# 使用Tispark进行安装的步骤 Tispark是一个开源的Spark引擎,它允许在TiDB数据库上执行SQL查询和分析操作。下面是使用Tispark进行安装的详细步骤: ## 步骤概览 | 步骤 | 描述 | | ---- | ---- | | 步骤一 | 下载和安装Spark | | 步骤二 | 下载和编译Tispark | | 步骤三 | 配置Tispark环境变量 | | 步骤四
原创 2024-01-19 09:07:52
52阅读
# 使用 Docker 在 Tiup Cluster 外单独部署 TiSpark ## 引言 随着大数据技术的快速发展,越来越多的企业开始使用开源大数据框架来处理和分析数据。TiSpark 作为一种基于 Apache Spark 的计算引擎,能够有效地利用 TiDB 提供的分布式数据库架构,满足企业的各种数据处理需求。本篇文章将介绍如何在 Tiup Cluster 外通过 Docker 单独部
原创 2024-10-13 05:06:30
49阅读
# Tispark ServiceSafePoint ## 引言 在大数据领域,数据安全备份是至关重要的。在Tispark中,提供了ServiceSafePoint机制来确保数据的安全性和可恢复性。本文将介绍Tispark ServiceSafePoint的概念和使用方法,并提供相关代码示例。 ## Tispark ServiceSafePoint简介 ### 概念 Tispark Servi
原创 2023-11-10 08:58:54
56阅读
最近比较忙,之后会整理一下TiDB&TiSpark的学习心得,以及经历过的坑。首先这边先贴2篇官方说明文档:- [TiSpark 快速入门指南](https://github.com/pingcap/docs-cn/blob/master/tispark/tispark-quick-start-guide.md) - [TiSpark 用户指南](https://github.com/pi
转载 2023-08-23 17:17:05
83阅读
# TiSpark 实战指南 在现代数据处理和分析中,TiSpark 是一个重要的工具,它能够将 Apache Spark 的计算能力与 TiDB 的存储引擎结合起来,实现数据的快速处理。在本篇文章中,我们将通过一个实战案例,教会刚入行的小白如何使用 TiSpark。 ## 整体流程 为了让这个学习过程更加清晰,我们将整个过程分为几个步骤,见下表: | 步骤 | 描述 | 目
原创 9月前
14阅读
作者:张 最近做了一下TiSpark On Kubernetes的实践,在开发环境中走通...
转载 2022-08-12 14:13:29
77阅读
# TiSpark内存溢出:深入剖析与解决方案 TiSpark是一个建立在TiDB之上的开源分布式计算引擎,专为大数据分析设计。然而,在实际应用中,TiSpark内存溢出的问题时有发生,这会导致查询失败或性能严重下降。本文将深入探讨TiSpark内存溢出的原因,提供代码示例并展示相应的解决方案。 ## 内存溢出的原因 内存溢出通常是由于以下几个原因引起的: 1. **数据量过大**:当查询
原创 2024-09-24 06:29:46
45阅读
  • 1
  • 2
  • 3
  • 4
  • 5