notepad ++ 将制表符(tab)替换为空格
通过impala对kudu进行sql操作
Hive索引可以建立在表中的某些列上,以提升一些操作的效率,例如减少MapReduce任务中需要读取的数据块的数量
clickhouse案例分析
clickhouse常用函数
一、基本语法1、建表语句目前只有MergeTree、Merge和Distributed这三类表引擎支持 alter 操作。cr
一、clickhouse简介优点:缺点:
你把婚约给了吉吉把陪伴给了子诺把孝顺给了父母却将牵挂给了我你终于和别人步入了婚姻殿堂,成为了别
一、
数据仓库理论一和二,主要讲流量域; 数据仓库理论三和四,主要讲业务域,即业务库里的数据。一、sqoop导入数据处理字典表,小杂表:全量导入 实体表(量级很大),事实表(每天都变化的业务表):增量导入增量导入后的数据,存储在数仓的 ODS 层中,对于统计分析,不便利;需要滚动合并生成全量快照。1、将数据全量导入建表并全量导入2、将每天的增量数据使用sqoop导入,放在ODS层导入增量脚本:#####
一、azkaban介绍azkaban是一个工作流调度器。一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等,为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行。二、安装azkaban三、azkaban示例...
Hadoop是apache旗下的一套开源软件平台, 主要对海量数据进行分布式处理。 本次部署,计划使用5台服务器,服务器磁盘规划如下: 分区挂载完成以后,使用root用户执行对目录/data授权。每台服务器都执行此命令。 chmod 777 -R /data一、基础运行平台部署包说明 平台大数据部署包共提供cm5,cdh,Redhat三个程序部署包。其中cm5为管理控制台,是必装包;cdh为基础运
前言: 之前Oracle数据库一直安装在VMware虚拟机里,后来公司不允许使用破解版的虚拟机,担心被罚款,所以让我们使用开源免费的虚拟机——VirtualBox。步骤一:VirtualBox下载 去VirtualBox官网 https://www.virtualbox.org/ 按自己笔记本操作系统,下载32/64位软件,过程简单,此处省略。步骤二:创建xp系统 1、打开虚拟机,点击新建,名称随
echarts关于下载各省、市、县的行政区划边界json数据地址:https://gallery.echartsjs.com/editor.html?c=xmCAi_XNuJ或者http://datav.aliyun.com/tools/atlas/#&lat=33.521903996156105&lng=104.29849999999999&zoom=3
公司之前的项目,weblogic登录密码忘记了,经过摸索,终于搞通了重置密码过程,具体步骤如下:1、首先进入weblogic安装目录,例如:cd /home/weblogic/2、先备份三个文件,boot.properties,DefaultAuthenticatorInit.ldift,DefaultAuthenticatormyrealmInit.initialized。如果不知道这三个文件路
一、背景 在Hadoop 2.0.0之前,HDFS集群中只有一个namenode,如果namenode故障,那么这个集群将不可用,直到namenode重启或者其他namenode接入。有两种方式会影响集群的整体可用性:1、意外的突发事件,比如物理机器crash,集群将不可用,直到管理员重启namenode。 2、系统维护,比如软件升级等,需要关闭namenode,也会导致集群暂时性的失效。HDFS
01 工厂方法追 MM 少不了请吃饭了,麦当劳的鸡翅和肯德基的鸡翅都是 MM 爱吃的东西,虽然口味有所不同,但不管你带 MM 去麦当劳或肯德基,只管向服务员说「来四个鸡翅」就行了。麦当劳和肯德基就是生产鸡翅的 Factory 工厂模式:客户类和工厂类分开。消费者任何时候需要某种产品,只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时,工厂类也要做相应的修改。如:如何创建及如何向
在多台机器上执行下面的命令#es启动时需要使用非root用户,所有创建一个bigdata用户:useradd bigdata#为hadoop用户添加密码:echo 123456 | passwd --stdin bigdata#将bigdata添加到sudoersecho "bigdata ALL = (root) NOPASSWD:ALL" | tee /etc/sudoers.d/bigdat
HDFS
Selenium是一个用于Web应用程序测试的工具,但是也可以爬取页面中的数据。开发环境是内网(局域网),项目工程是web项目,jdk使用的1.8,tomcat使用的 8。web项目: 启动时使用tomcat, tomcat会先加载web.xml配置文件里内容;maven项目: 和web项目的区别是,需要的jar包,交给maven维护,不用自己导入jar包;java项目: 启动时,使用main方法
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。实时数据每隔一段时间,就要把历史数据放在数据仓库里,防止数据越来越大,导致查询越来越慢。数据仓库主要用于数据分析,可以按照主题进行存放,比如订单仓库,可以用来存放历史订单表、订单详情表、支付信息表等,不必考虑空间的问题。hive是做离线数据分析,没有更新功能,不是用来做数据库的,不适合一
Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。Mapreduce分布式运算程序往往分2个阶段:map阶段:并发实例,各司其职,互不干涉,完全并行; reduce阶段:并发实例,互补干涉,但它们的数据依赖上一个阶段实例输出; mrapplication master 负责监管map和reduce。Mapreduce实现两个表的join:方式
一、离线计算与实时计算离线计算: 批量获取数据、批量传输数据;周期性计算数据,展示数据;代表技术: sqoop批量导入,HDFS批量存储,mapreduce批量计算,Hive批量计算数据… 就业方向: hivesql, Hadoop集群运维实时计算: 数据实时产生,数据实时传输,数据实时计算,实时展示;代表技术: Flume实时获取数据,kafka/metaq 实时数据存储,storm/Jstro
分析平台可分为:1、现成的商业版桌面BI软件,kettel,easyui、powerbi; 2、自己使用java或者python开发web平台; 3、开源免费版的web平台,比如superset;Superset 快速、轻量、直观,并加载了选项,使所有技能集的用户都可以轻松探索和可视化他们的数据,从简单的折线图到高度详细的地理空间图表,是由python开发的web系统。一、环境准备 superse
一、星型摸型事实表是记录一个事实的,可以理解为订单表, 纬度表是提供更丰富信息的表,可以理解为商品明细表、订单明细表;它是由一个事实表和一组维表组成,每个维表都有一个维作为主键,所有这些维的主键组成事实表的主键。二、雪花模型当有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时,其图解像多个雪花连接在一起,故而称为雪花模型。三、漏斗模型漏斗模型主要分析业务转化率的四、三范式模型
一、时间处理类1、把固定日期转换成时间戳select unix_timestamp('2020-05-29','yyyy-MM-dd') --返回结果 1590681600select unix_timestamp('20200529','yyyyMMdd') --返回结果 1590681600select unix_timestamp('2020-05-29T13:12:23Z', "yyyy
一、消息队列:消息队列的核心功能:解耦,异步和并行。消息队列与rpc区别: 消息队列只负责发送消息;rpc需要调用,并给响应状态码;相同点是他们都能解耦。消息队列: activeMQ; jdk; kafka.二、JMS(消息传输模型) java消息传输模型:点对点模式;发布/订阅模式 点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除)点对点模型通常是一个基于拉取或者轮询的消息传送模型,
一、采集数据到HDFS1、建一个log4j.propertieslog4j.rootLogger=INFO,testloglog4j.appender.testlog = org.apache.log4j.RollingFileAppender log4j.appender.testlog.layout = org.apache.log4j.PatternLayout log4j.appender
一、Scala函数1、聚合 val arr = List(List(1, 2, 3), List(3, 4, 5), List(2), List(0))val result=arr.aggregate(0)(+.sum, + )2、并集 val l1 = List(5,6,4,7) val l2 = List(1,2,3,4)val result = l1 union l23、交集 val l1
Criteria意为“标准、准则”,在数据库中翻译为“查询条件”,所以CriteriaBuider就是Java提供的、用来生成查询条件的“标准生成器”。Criteria的in方法对应SOL语句中的IN关键字。 比如:select * from t_olympic_staiums y where y.id in (1,2,3,4,5)网上查询到例子为:List<Predicate>
Copyright © 2005-2023 51CTO.COM 版权所有 京ICP证060544号