YDB介绍什么是延云YDB基于spark排序的一种更廉价的实现方案-附基于spark的性能测试大索引技术大数据的未来YDB技术原理YDB技术原理那些年我们在spark SQL上踩过的坑YDB跟Solr Cloud、ElasticSearch区别YDB安装部署YDB依赖的硬件环境详解YDB依赖的操作系统环境详解YDB依赖的软件环境详解YDB基于原版Hadoop的部署YDB基于HDP版本的安装部署如何
原创 2017-03-12 18:34:40
1145阅读
自2012年以来,公安部交通管理局在全国范围内推广了机动车缉查布控系统(简称卡口系统),通过整合共享各地车辆智能监测记录等信息资源,建立了横向联网、纵向贯通的全国机动车缉查布控系统,实现了大范围车辆缉查布控和预警拦截、车辆轨迹、交通流量分析研判、重点车辆布控、交通违法行为甄别查处及侦破涉车案件等应用。在侦破肇事逃逸案件、查处涉车违法行为、治安防控以及反恐维稳等方面发挥着重要作用。随着联网单位
原创 2017-03-12 15:16:51
1430阅读
YDB中的spark广播变量《《《《《《《 大棒槌QAQ 》》》》》》》何为YDBYDB全称延云YDB,是一个基于Hadoop分布式架构下的实时的、多维的、交互式的查询、统计、分析引擎,具有万亿数据规模下的秒级性能表现,并具备企业级的稳定可靠表现。YDB是一个细粒度的索引,精确粒度的索引。数据即时导入,索引即时生成,通过索引高效定位到相关数据。YDB与Spark深度集成,Spark对YDB检索结
关于spark的性能,基于YDB的对比,做了一个测试,保留备用。一、YDB与spark sql在排序上的性能对比测试 在排序上,YDB具有绝对优势,无论是全表,还是基于任意条件组合过滤,基本秒杀spark任何格式。 测试结果(时间单位为秒) 二、与Spark txt在检索上的性能对比测试。注释:备忘。下图的这块,其实没什么特别的,只不过由于YDB本身索引的特性,不想s
第八章YDB函数一、如何区分Spark 的SQL解析层与YDB的SQL解析层       对于YDB系统来说,我们将索引与SPARK集成在了一起,但是YDB层的SQL解析与SPARK 层的SQL解析是分别处理,大家可以注意下架构图里面的那两个箭头,注意下Spark层与ydb层SQL解析的位置。1.从架构角度2.从SQL角度看 二
什么是延云YDB      YDB全称延云YDB,是一个基于Hadoop分布式架构下的实时的、多维的、交互式的查询、统计、分析引擎,具有万亿数据规模下的秒级性能表现,并具备企业级的稳定可靠表现。      YDB是一个细粒度的索引,精确粒度的索引。数据即时导入,索引即时生成,通过
第七章YDB基本使用详解一、如何与YDB对接(交互) 目前延云YDB提供如下几种方式l命令行的方式lWeb http接口的方式lJDBC接口的方式通过JAVA编程接入通过可视化SQL分析统计接入通过报表分析工具接入二、命令行接入进入ya100的安装目录的bin目录 1.直接执行 ./conn.sh 即可。 2.通过./sql.sh -f xxx.sql 直接执行文件中的SQL 三、WEB
关于spark的性能,基于YDB的对比,做了一个测试,保留备用。一、YDB与spark sql在排序上的性能对比测试在排序上,YDB具有绝对优势,无论是全表,还是基于任意条件组合过滤,基本秒杀spark任何格式。  测试结果(时间单位为秒) 二、与Spark txt在检索上的性能对比测试。注释:备忘。下图的这块,其实没什么特别的,只不过由于YDB本身索引的特性,不想spark那样暴
转载 2024-08-04 16:07:05
59阅读
一、YDB升级步骤1.停止YDB服务       通过./stop-all.sh来停止服务(注:HDP版本需要在管理页面上停止服务)2.备份旧程序1)备份旧版YDB整个程序目录2)备份我们自己开发或添加的第三方的jar包和配置文件3)备份YDB提供的Spark整个程序目录4)备份HIVE本地元数据库   &n
转载 2024-09-05 19:18:22
71阅读
一、大索引技术,大数据的未来       YDB并没有采用堆积机器,靠大内存和SSD硬盘的方式来提升计算速度。YDB采用索引技术, 在RDBMS中索引的概念大家一点都不陌生,但是在大数据里大家似乎没有听过,YDB将索引创建在HDFS中,通过索引技术,将大数据分门别类整理好,就像是一个新华字典的目录,通过目录可以快速到相关数据,避免了暴力的
转载 2024-03-21 22:19:54
21阅读
hive基本数据类型smalint:2byte(32768,java short), int:4byte(对应java int), bigint:8byte(对应java long,ydb-tlong:多占用存储空间,但是查找速度要更快), boolean:布尔类型(true|FALSE), float:单精度浮点型 doublie:双精度浮点型 string:字符串类型(对应ydb-string
数据丢失为大事,针对数据丢失的问题我们排查结果如下。 第一:是否存在数据丢失的问题?     存在,且已重现。第二:是在什么地方丢失的数据,是否是YDB的问题?     数据丢失是在导入阶段,数据并没有写入到Kafka里面,所以YDB也就不会从Kafka里面消费到缺失的数据,数据丢失与延云YDB无关。第三:是如何发现有
1)如何定位到是写入端丢失数据的,而不是YDB消费者端丢失数据的?    kafka支持数据的重新回放的功能(换个消费group),我们清空了ydb的所有数据,重新用kafka回放了原先的数据。    如果是在ydb消费端丢失数据,那么第二遍回放数据的结果,跟第一次消费的数据在条数上肯定会有区别,完全一模一样的几率很低。数据回放结果为:与
数据丢失为大事,针对数据丢失的问题我们排查结果如下。第一:是否存在数据丢失的问题?    存在,且已重现。第二:是在什么地方丢失的数据,是否是YDB的问题?    数据丢失是在导入阶段,数据并没有写入到Kafka里面,所以YDB也就不会从Kafka里面消费到缺失的数据,数据丢失与延云YDB无关。第三:是如何发现有数据丢失? &n
转载 2024-03-27 16:37:58
35阅读
dBm是功率的单位,1dbm等于1毫瓦,也就是千分之一瓦。db则是标量,没有单位,表示对某个数取对数再乘以10,以简化某些很大或很小的数字。 看看以下的运算可以更好理解:Xdb+Ydb=(X+Y)dbXdbm+Ydb=(X+Y)dbm但Xdbm+Ydbm不等于(X+Y)dbm,要转化成瓦之后再相加。dB家族的辩解在我们日常的学习和工作中,总是时不时地接触到类如dBm、dBi、dBd、dB、dBc等
YDB依赖环境准备一、硬件环境硬件如何搭配,能做到比较高的性价比,不存在短板。合理的硬件搭配,对系统的稳定性也很关键。1.CPU不是核数越高越好,性价比才是关键。      经常遇到很多的企业级客户,他们机器配置非常高,CPU有128 VCore,256G内存,但是只挂载了1块8T的SATA硬盘,千兆网卡。  &nbs
做了一年延云YDB的开发,这一年在使用spark上真心踩了不少坑,总结一下,希望对大家有所帮助。 spark 内存泄露 1.高并发情况下的内存泄露的具体表现很遗憾,Spark的设计架构并不是为了高并发请求而设计的,我们尝试在网络条件不好的集群下,进行100并发的查询,在压测3天后发现了内存泄露。a)在进行大量小SQL的压测过程中发现,有大量的activejob在spark u
大家好,这里是架构资源栈!点击上方关注,添加“星标”,一起学习大厂前沿架构! 关注、发送C1即可获取JetBrains全家桶激活工具和码! 在高性能系统中,优化一个非瓶颈点是没意义的。YDB 团队在使用 gRPC 做数据库接口通信时,就真实踩中了一个性能“陷阱”:明明集群空闲,延迟却越来越高,吞吐也上不去,问题竟出在 gRPC 客户端上。 这不是“背锅侠”的锅,而是架构实现中的隐藏瓶颈。本文带大
做了一年延云YDB的开发,这一年在使用spark上真心踩了不少坑,总结一下,希望对大家有所帮助。spark 内存泄露1.高并发情况下的内存泄露的具体表现很遗憾,Spark的设计架构并不是为了高并发请求而设计的,我们尝试在网络条件不好的集群下,进行100并发的查询,在压测3天后发现了内存泄露。a)在进行大量小SQL的压测过程中发现,有大量的activejob在spark ui上一直处于pending