ydb_51CTO博客

YDB资源汇总

YDB介绍什么是延云YDB基于spark排序的一种更廉价的实现方案-附基于spark的性能测试大索引技术大数据的未来YDB技术原理YDB技术原理那些年我们在spark SQL上踩过的坑YDB跟Solr Cloud、ElasticSearch区别YDB安装部署YDB依赖的硬件环境详解YDB依赖的操作系统环境详解YDB依赖的软件环境详解YDB基于原版Hadoop的部署YDB基于HDP版本的安装部署如何

技术

操作系统

资源

原创

wx58a7bb5e188a6

2017-03-12 18:34:40

1145阅读

hadoop、spark、hive、solr、es与YDB在车辆即席分析上的对比分析

自2012年以来，公安部交通管理局在全国范围内推广了机动车缉查布控系统（简称卡口系统），通过整合共享各地车辆智能监测记录等信息资源，建立了横向联网、纵向贯通的全国机动车缉查布控系统，实现了大范围车辆缉查布控和预警拦截、车辆轨迹、交通流量分析研判、重点车辆布控、交通违法行为甄别查处及侦破涉车案件等应用。在侦破肇事逃逸案件、查处涉车违法行为、治安防控以及反恐维稳等方面发挥着重要作用。随着联网单位

hadoop

spark

hive

原创

wx58a7bb5e188a6

2017-03-12 15:16:51

1430阅读

spark on hive怎么把小表广播到内存中

YDB中的spark广播变量《《《《《《《大棒槌QAQ 》》》》》》》何为YDB？YDB全称延云YDB，是一个基于Hadoop分布式架构下的实时的、多维的、交互式的查询、统计、分析引擎，具有万亿数据规模下的秒级性能表现，并具备企业级的稳定可靠表现。YDB是一个细粒度的索引，精确粒度的索引。数据即时导入，索引即时生成，通过索引高效定位到相关数据。YDB与Spark深度集成，Spark对YDB检索结

大数据

多维即系查询

hadoop

数据库

spark广播变量

转载

网络安全侠

9月前

58阅读

spark sql 选取第一条记录 spark sql order by

关于spark的性能，基于YDB的对比，做了一个测试，保留备用。一、YDB与spark sql在排序上的性能对比测试在排序上，YDB具有绝对优势，无论是全表，还是基于任意条件组合过滤，基本秒杀spark任何格式。测试结果(时间单位为秒) 二、与Spark txt在检索上的性能对比测试。注释：备忘。下图的这块，其实没什么特别的，只不过由于YDB本身索引的特性，不想s

spark sql 选取第一条记录

数据

spark

性能对比

转载

智慧编织者

2024-05-21 09:56:37

76阅读

spark处理日期类型的数据时分秒为0 spark 时间戳相减

第八章YDB函数一、如何区分Spark 的SQL解析层与YDB的SQL解析层对于YDB系统来说，我们将索引与SPARK集成在了一起，但是YDB层的SQL解析与SPARK 层的SQL解析是分别处理，大家可以注意下架构图里面的那两个箭头，注意下Spark层与ydb层SQL解析的位置。1.从架构角度2.从SQL角度看二

spark处理日期类型的数据时分秒为0

hadoop

spark

大数据

solr

转载

lanhy

2024-08-20 09:14:15

83阅读

即席presto 为什么这么快

什么是延云YDB YDB全称延云YDB，是一个基于Hadoop分布式架构下的实时的、多维的、交互式的查询、统计、分析引擎，具有万亿数据规模下的秒级性能表现，并具备企业级的稳定可靠表现。 YDB是一个细粒度的索引，精确粒度的索引。数据即时导入，索引即时生成，通过

即席presto 为什么这么快

数据

升序

搜索

转载

detailtoo

3月前

354阅读

DBevear如何导出索引信息 dbvisualizer导出索引和序列

第七章YDB基本使用详解一、如何与YDB对接（交互）目前延云YDB提供如下几种方式l命令行的方式lWeb http接口的方式lJDBC接口的方式通过JAVA编程接入通过可视化SQL分析统计接入通过报表分析工具接入二、命令行接入进入ya100的安装目录的bin目录 1.直接执行 ./conn.sh 即可。 2.通过./sql.sh -f xxx.sql 直接执行文件中的SQL 三、WEB

DBevear如何导出索引信息

spark

hadoop

大数据

solr

转载

数据分析家

1月前

356阅读

spark sql insert overwrite分区表结果数据量不一致 spark sql order by

关于spark的性能，基于YDB的对比，做了一个测试，保留备用。一、YDB与spark sql在排序上的性能对比测试在排序上，YDB具有绝对优势，无论是全表，还是基于任意条件组合过滤，基本秒杀spark任何格式。测试结果(时间单位为秒) 二、与Spark txt在检索上的性能对比测试。注释：备忘。下图的这块，其实没什么特别的，只不过由于YDB本身索引的特性，不想spark那样暴

elasticsearch

solr

hadoop

spark

大数据

转载

mob64ca1401b651

2024-08-04 16:07:05

59阅读

ryhthmhive更新

一、YDB升级步骤1.停止YDB服务通过./stop-all.sh来停止服务（注：HDP版本需要在管理页面上停止服务）2.备份旧程序1)备份旧版YDB整个程序目录2)备份我们自己开发或添加的第三方的jar包和配置文件3)备份YDB提供的Spark整个程序目录4)备份HIVE本地元数据库 &n

ryhthmhive更新

hadoop

spark

大数据

solr

转载

mob64ca140ac564

2024-09-05 19:18:22

71阅读

5亿数据加索引大数据加索引

一、大索引技术，大数据的未来 YDB并没有采用堆积机器，靠大内存和SSD硬盘的方式来提升计算速度。YDB采用索引技术, 在RDBMS中索引的概念大家一点都不陌生，但是在大数据里大家似乎没有听过，YDB将索引创建在HDFS中，通过索引技术，将大数据分门别类整理好，就像是一个新华字典的目录，通过目录可以快速到相关数据，避免了暴力的

5亿数据加索引

spark

solr

elasticsearch

大数据

转载

墨色天香

2024-03-21 22:19:54

21阅读

hive查询语言支持map hive查询语言支持double到number

hive基本数据类型smalint：2byte（32768，java short）， int：4byte（对应java int）， bigint：8byte（对应java long，ydb-tlong：多占用存储空间，但是查找速度要更快）， boolean：布尔类型（true|FALSE）， float：单精度浮点型 doublie：双精度浮点型 string：字符串类型（对应ydb-string

hive查询语言支持map

hive

字符串

加载数据

转载

mob64ca1400133b

2024-01-27 15:12:00

57阅读

如何确认kafka是否安装正常怎么看kafka有没有数据

数据丢失为大事，针对数据丢失的问题我们排查结果如下。第一：是否存在数据丢失的问题？存在，且已重现。第二：是在什么地方丢失的数据，是否是YDB的问题？数据丢失是在导入阶段，数据并没有写入到Kafka里面，所以YDB也就不会从Kafka里面消费到缺失的数据，数据丢失与延云YDB无关。第三：是如何发现有

如何确认kafka是否安装正常

kafka

消息丢失

数据

数据丢失

转载

码海舵手之心

2024-03-19 09:26:58

97阅读

kafka生产者配置用户名密码 kafka生产者消息丢失

1）如何定位到是写入端丢失数据的，而不是YDB消费者端丢失数据的？ kafka支持数据的重新回放的功能(换个消费group)，我们清空了ydb的所有数据，重新用kafka回放了原先的数据。如果是在ydb消费端丢失数据，那么第二遍回放数据的结果，跟第一次消费的数据在条数上肯定会有区别,完全一模一样的几率很低。数据回放结果为：与

kafka生产者配置用户名密码

数据

kafka

数据丢失

转载

mob64ca140f29e5

2024-02-23 17:46:48

34阅读

kafka清掉数据 kafka清理数据

数据丢失为大事，针对数据丢失的问题我们排查结果如下。第一：是否存在数据丢失的问题？存在，且已重现。第二：是在什么地方丢失的数据，是否是YDB的问题？数据丢失是在导入阶段，数据并没有写入到Kafka里面，所以YDB也就不会从Kafka里面消费到缺失的数据，数据丢失与延云YDB无关。第三：是如何发现有数据丢失？ &n

kafka清掉数据

大数据

数据

数据丢失

kafka

转载

mob64ca1402d47a

2024-03-27 16:37:58

35阅读

android dbm高和低

dBm是功率的单位，1dbm等于1毫瓦，也就是千分之一瓦。db则是标量，没有单位，表示对某个数取对数再乘以10，以简化某些很大或很小的数字。看看以下的运算可以更好理解：Xdb+Ydb=(X+Y)dbXdbm+Ydb=(X+Y)dbm但Xdbm+Ydbm不等于(X+Y)dbm，要转化成瓦之后再相加。dB家族的辩解在我们日常的学习和工作中，总是时不时地接触到类如dBm、dBi、dBd、dB、dBc等

android dbm高和低

工作

3d

2d

标量

转载

锦绣前程未央

6月前

38阅读

hadoop 主机磁盘故障

YDB依赖环境准备一、硬件环境硬件如何搭配，能做到比较高的性价比，不存在短板。合理的硬件搭配，对系统的稳定性也很关键。1.CPU不是核数越高越好，性价比才是关键。经常遇到很多的企业级客户，他们机器配置非常高，CPU有128 VCore，256G内存，但是只挂载了1块8T的SATA硬盘，千兆网卡。 &nbs

hadoop 主机磁盘故障

spark

hadoop

大数据

solr

转载

编程之翼

9月前

34阅读

sparksql sql长度 spark sql sum

做了一年延云YDB的开发，这一年在使用spark上真心踩了不少坑，总结一下，希望对大家有所帮助。 spark 内存泄露 1.高并发情况下的内存泄露的具体表现很遗憾，Spark的设计架构并不是为了高并发请求而设计的，我们尝试在网络条件不好的集群下，进行100并发的查询，在压测3天后发现了内存泄露。a)在进行大量小SQL的压测过程中发现，有大量的activejob在spark u

sparksql sql长度

运维

ui

大数据

spark

转载

代码工匠大师

5月前

9阅读

gRPC性能陷阱：低延迟网络下的客户端瓶颈揭秘

大家好，这里是架构资源栈！点击上方关注，添加“星标”，一起学习大厂前沿架构！关注、发送C1即可获取JetBrains全家桶激活工具和码！在高性能系统中，优化一个非瓶颈点是没意义的。YDB 团队在使用 gRPC 做数据库接口通信时，就真实踩中了一个性能“陷阱”：明明集群空闲，延迟却越来越高，吞吐也上不去，问题竟出在 gRPC 客户端上。这不是“背锅侠”的锅，而是架构实现中的隐藏瓶颈。本文带大

Java

开发编程

技术杂谈

原创

吾日三省吾码

2月前

189阅读

spark sql where子句用不了

做了一年延云YDB的开发，这一年在使用spark上真心踩了不少坑，总结一下，希望对大家有所帮助。spark 内存泄露1.高并发情况下的内存泄露的具体表现很遗憾，Spark的设计架构并不是为了高并发请求而设计的，我们尝试在网络条件不好的集群下，进行100并发的查询，在压测3天后发现了内存泄露。a)在进行大量小SQL的压测过程中发现，有大量的activejob在spark ui上一直处于pending

hadoop

spark

ydb

云计算

大数据

转载

mob64ca14157da7

8月前

43阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

ydb

YDB资源汇总

hadoop、spark、hive、solr、es与YDB在车辆即席分析上的对比分析

spark on hive怎么把小表广播到内存中

spark sql 选取第一条记录 spark sql order by

spark处理日期类型的数据时分秒为0 spark 时间戳相减

即席presto 为什么这么快

DBevear如何导出索引信息 dbvisualizer导出索引和序列

spark sql insert overwrite分区表结果数据量不一致 spark sql order by

ryhthmhive更新

5亿数据加索引大数据加索引

hive查询语言支持map hive查询语言支持double到number

如何确认kafka是否安装正常怎么看kafka有没有数据

kafka生产者配置用户名密码 kafka生产者消息丢失

kafka清掉数据 kafka清理数据

android dbm高和低

hadoop 主机磁盘故障

sparksql sql长度 spark sql sum

gRPC性能陷阱：低延迟网络下的客户端瓶颈揭秘

spark sql where子句用不了

html5响应式滚动

it运维知识

java

linux怎么打开我的电脑

安装ssh时ip地址

数据库的查询思路

本地安装mysql服务

查看linux远程端口

考ccnp还是linux

软考嵌入式真题

51CTO博客

ydb

YDB资源汇总

hadoop、spark、hive、solr、es与YDB在车辆即席分析上的对比分析

spark on hive怎么把小表广播到内存中

spark sql 选取第一条记录 spark sql order by

spark处理日期类型的数据时分秒为0 spark 时间戳相减

即席presto 为什么这么快

DBevear如何导出索引信息 dbvisualizer导出索引和序列

spark sql insert overwrite分区表结果数据量不一致 spark sql order by

ryhthmhive更新

5亿数据加索引 大数据加索引

hive查询语言支持map hive查询语言支持double到number

如何确认kafka是否安装正常 怎么看kafka有没有数据

kafka生产者配置用户名密码 kafka生产者消息丢失

kafka清掉数据 kafka清理数据

android dbm高和低

hadoop 主机磁盘故障

sparksql sql长度 spark sql sum

gRPC性能陷阱：低延迟网络下的客户端瓶颈揭秘

spark sql where子句用不了

html5响应式滚动

it运维知识

java

linux怎么打开我的电脑

安装ssh时ip地址

数据库的查询思路

本地安装mysql服务

查看linux远程端口

考ccnp还是linux

软考嵌入式真题

5亿数据加索引大数据加索引

如何确认kafka是否安装正常怎么看kafka有没有数据