要点:当希望超类中的某些方法允许被子类访问,或允许子类的方法访问超类的某个域,需要将这些方法或域声明为 protected。Java 中的受保护部分(即声明为 protected )对所有子类及同一个包中的所有其他类都可见。疑惑:    ”Manager 类中的方法只能够访问 Manager 对象中的 hireDay 域,而不能访问其他 Employee 对象中的这个域。”&n
转载 2023-07-12 18:16:26
28阅读
1.配置插件文件夹的属性hdp252.查看依赖项的路径locate */hive/lib/hive*jar
原创 2023-01-09 18:11:51
151阅读
CDH直接去官网下载HiveJDBC4.jar,丢到tomcat的lib目录下即可HDP
原创 2023-01-09 18:19:16
150阅读
主页:​​小王叔叔的博客​​欢迎来访 【搜索引擎】Kettle Spoon的应用
原创 2022-05-19 18:29:46
7940阅读
1点赞
1:删除   连接数据库:新建连接数据库,或者应用转换中已经定义好的数据库。  目标模式:指什么现在还不明确,集群模式?子服务器模式?--要写入数据的表的Schema名称。允许表名中包含“.”是很重要的。  目标表:指定删除记录所对应的表。   提交记录数量:提交之前要改变(删除)的行数   表字段:来源于目标表中的字段。   流字段:来源于上一步骤中的字段
基于虚拟机搭建hdp集群,以下是我搭建集群的虚拟机环境说明一.环境预配置参照官网配置步骤:1. 配置hosts与主机名vim /etc/hosts # 添加以下内容(三台) 192.168.127.121 hadoop121 192.168.127.122 hadoop122 192.168.127.123 hadoop123 设置主机名 hostnamectl set-hostname had
转载 2023-07-12 10:11:33
159阅读
spark默认会使用基于derby数据库存储元数据的hive,数据文件存储位置由spark.sql.warehouse.dir参数指定(默认为当前目录)。 比如当我们在/spark/目录下调用spark-shell,并且用Dataset的saveAsTable方法持久化一个表后。会发现在/spark目录下多出了:一个文件:derby.log,记录了derby数据库相关日志信息;一个目录:metas
转载 2023-08-24 19:25:45
184阅读
第1章 Hadoop概述第1章 Hadoop概述1.1 Hadoop是什么1.2 Hadoop优势(4高)1.3 Hadoop 组成(面试重点)1.3.1 HDFS架构概述1.3.2 YARN 架构概述1.3.3 MapReduce架构概述1.3.4 HDFS、YARN、MapReduce 三者关系1.4 大数据生态体系1.5 推荐系统框架图 第1章 Hadoop概述1.1 Hadoop是什么H
转载 2023-08-18 19:24:49
87阅读
           近期两个月一直和kettle打交道,从開始的没听说过,到如今能够熟练运用,不得不说项目驱动下,学习东西是最快的。好了,尽管使用kettle应付项目的任务绰绰有余。可是还是想系统的学习一下,总结一下。比如job用的比較少,kettle的集群模式没有涉及到等等。     
1.近况    最近忙于更换工作一直没有更新自己的公众号,十一过后刚入职医疗行业大数据公司,主要还是从事Hadoop相关的工作,正好同事用到了Kettle从Oracle向Hive中抽取数据,周末有空就在自己集群研究了下,这里把采坑过程记录下,希望能帮助有需要的同学。2.kettle报错研究过程    由于没有使用过kettle,一开始、下载了最新版的kettle7.0,经过各种百度,下载hive配
原创 2021-03-10 09:25:55
1224阅读
Spark是一个通用的大规模数据快速处理引擎,一个大数据分布式处理框架。Spark之所以能被迅速的应用到各种大数据处理场景下,与其为Batching processing,Streaming Processing,Ad-hoc Query等三大大数据处理问题提供了近乎完美的解决方案息息相关。在Spark中,使用Spark SQL,Spark Streaming,MLlib,Graphx很好的解决了
转载 6月前
9阅读
## HDP 架构 HDP(Hortonworks Data Platform)是一种基于Apache Hadoop的数据处理和分析平台。它提供了一套完整的工具和组件来处理、存储和分析大数据。本文将介绍HDP的架构和一些常用的组件。 HDP架构的核心是Apache Hadoop,它是一个开源的分布式数据处理框架。Hadoop主要由两个部分组成:Hadoop分布式文件系统(HDFS)和MapRe
原创 2023-08-29 07:38:39
114阅读
(官方文档整理)系统级调优1.保证充足的RAM 2.64位的操作系统 3.Linux的swappiness设置为0 : sysctl vm.swappiness=10 vim /etc/sysctl.conf 加上 vm.swappiness=0网络级调优当集群的扩容的时候,应该同时注意交换机的硬件资源也能够跟上。Java GC 调优Long GC pauses 由GC导致的长时间的进程停滞,
HDP安装教程,ambari安装教程,大数据平台安装教程1.环境准备1.安装centos7系统1.使用vmware安装centos系统,略 HDP 环境安装配置HDP : Hortonworks Data PlatformCDH : Cloudera Distribution Hadoop部署安装主要分为3大部分准备环境、配置机器、准备离线包、本地仓库、数据库等安装Ambari Server 阶段
转载 2024-05-05 14:04:18
98阅读
https://pan.baidu.com/s/128oj8lq6WSu8Uu8PTu3evg2y94
原创 2023-01-16 08:05:02
56阅读
# Docker和HDP科普指南 ## 介绍 在大数据处理领域中,Apache Hadoop是一个非常流行的开源框架。它提供了一种可靠的、可扩展的分布式计算和存储解决方案。然而,搭建和管理Hadoop集群可能会变得非常复杂,特别是对于那些刚开始接触Hadoop的人来说。这就是为什么Docker与Hadoop分布式处理(HDP)结合的原因。 Docker是一个容器化平台,它可以将应用程序及其所
原创 2023-09-29 13:00:05
31阅读
常见版本不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称CDH)、Hortonworks版本(Hortonworks Data Platform,简称“HDP”),对于国内而言,绝大多数选择CDH版本,
转载 2023-09-23 13:16:14
127阅读
本期与大家分享的是,小北精心整理的大数据学习笔记,数据采集工具Kettle 的详细介绍一、Kettle概述1、什么是kettleKettle是一款开源的ETL工具,底层是纯Java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。2、Kettle工程存储方式(1)以XML形式存储(2)以资源库方式存储(数据库资源库和文件资源库)3、Kettle的两种设计4、Ke
1. 利用 excel中的数据生成xml文件kettle中的xml文件输出组件的功能其实是很弱的,所以要生成较为复杂的xml文件时需要使用组件: add xml ,  xml join,  placeholder, js script 等等使用merge join主要是为了减少在xml join中需要匹配的结果集合(因为xml join中的匹配功能其实是很
转载 2023-12-25 12:23:55
56阅读
1)安装HDP时,如果打印如下错误信息:[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:579)是由于系统的python版本过高,导致验证ssl失败,将python降级为2.7.5以下或修改每个安装节点的python证书验证配置文件,执行以下命令修改:$ sed -i 's/verify=platform_def
转载 2023-08-29 17:52:23
297阅读
  • 1
  • 2
  • 3
  • 4
  • 5