Hadoop流 ##wordcount的例子 bin/hadoop jar contrib/streaming/hadoop-0.20.2-streaming.jar -input input -output output -mapper /bin/cat -reducer /usr/bin/wc 注意,命令一定要写完整的路径 Hive 简介 数据
转载 9月前
13阅读
一、java操作hive1、启动服务:hiveserver2,让hive开启与外部连接的服务nohup hiveserver2 1>/dev/null 2>/dev/null &2、加入hive的依赖包 <dependency>   <groupId>org.apache.hive</groupId>
转载 2023-06-27 07:44:32
249阅读
目录安装mysql、hive步骤什么是hive一、启动方式二、操作Hive1、基本建表语句:2、内部表与外部表3、分区表4、数据导入与导出安装mysql、hive步骤一、什么是hiveHive是基于Hadoop的一个数据仓库工具(离线),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。操作接口采用类SQL语法,提供快速开发的能力, 避免了去写MapReduce,减少开发
转载 2023-07-20 21:52:49
131阅读
# 实现“hive 调用 java 函数”教程 ## 整体流程 下面是实现“hive 调用 java 函数”的整体流程: | 步骤 | 描述 | | ------ | ------ | | 1 | 编写 Java 函数和打包成 jar 文件 | | 2 | 将 jar 文件上传至 HDFS | | 3 | 在 Hive 中创建临时函数 | | 4 | 在 Hive调用 Java 函数 |
原创 2024-03-13 04:41:48
50阅读
在上篇博客成功搭建好hadoop集群后,现在简单完成一下,通过jdbc连接hadoop上的hive.如题,java连接hive就是类似连接mysql与sqlserver数据库的jdbc方式。就是两个步骤,加载加载驱动程序,获取与数据库的连接。先来看下配置pom.xml:<?xml version="1.0" encoding="UTF-8"?> <project xmlns="h
转载 2023-06-06 22:10:24
172阅读
 Java heap space问题一般解决方案:设置 set io.sort.mb=10; 排序所使用的内存数量,默认值是100M,和mapred.child.java.opts相对应,opts默认:-Xmx200m,则mb不能超过200M,否则会OOM。设置 set hive.map.aggr=true; 是否在 Map 端进行聚合,默认为True,会在map端进行部分数据
转载 2023-06-12 19:52:22
132阅读
# Java调用Hive Thrift 报错解决方案 ## 1. 整体流程 首先,让我们来看一下整个过程的步骤,我们可以用表格展示如下: | 步骤 | 操作 | | ---- | ---- | | 1 | 配置Hive Thrift Server | | 2 | 编写Java代码连接Hive Thrift Server | | 3 | 运行Java代码进行测试 | ## 2. 详细操作步骤
原创 2024-06-02 04:30:33
107阅读
前言:通过自己的fastjosn初识的笔记,已经记录到了1.2.47,自己这篇笔记就是用来记录1.2.47 通过类缓存来进行绕过 关闭AutoType 的情况下的反序列化1、学习了类缓存绕过的方法2、学习了fastjson的词义解析模式<dependency> <groupId>com.alibaba</groupId> <arti
# 如何实现Java调用Sqoop Hive MySQL ## 一、整体流程 使用Sqoop实现Java调用Hive中的数据,并将数据导入到MySQL数据库中,整体流程如下所示: ```mermaid journey title 整体流程 section 开发者指导小白入门 开始 --> 下载安装Sqoop: 开发者提供下载链接,小白根据链接下载并安装Sqoo
原创 2024-04-28 04:11:07
24阅读
# Java调用Hive查询HBase的指南 在现代数据处理环境中,Hive 和 HBase 是两种非常常用的大数据存储和处理技术。感谢这两者的结合,我们可以轻松地利用Hive来查询和处理存储在HBase中的数据。本文将指导你如何实现Java调用Hive查询HBase,适合刚入行的小白,重点讲解每一个步骤和代码实现。 ## 流程概述 在正式编码之前,我们先来看看整个流程。以下是实现“Java
原创 2024-08-22 08:11:27
63阅读
# 如何用 Java 调用 Hive 建表的实现 在大数据处理的环境中,Hive 是一个非常重要的框架,它允许用户使用类似 SQL 的语言对大数据进行查询。通过 Java API 调用 Hive,您可以动态地创建表、插入数据以及管理元数据。本文,将带领您逐步学习如何用 Java API 调用 Hive 创建数据库表。 ## 整体流程 在开始之前,我们先来了解一下整个流程,以下是一份简洁的步骤
原创 8月前
43阅读
# Hive 调用 Python ## 介绍 Apache Hive是一个基于Hadoop的数据仓库基础设施,它提供了一个类似于SQL的查询语言,称为HiveQL,用于查询和分析大规模数据集。Hive可以将结构化和半结构化的数据转换为可查询的表格,并提供了用于数据处理和分析的丰富的函数库。虽然Hive本身提供了很多功能,但有时我们需要在Hive查询中使用自定义的逻辑或函数,这就需要调用Pyth
原创 2023-09-16 16:11:46
156阅读
# 使用Python调用Hive操作指南 ## 简介 在本文中,我将向你展示如何使用Python调用Hive进行数据操作。作为一名经验丰富的开发者,我将逐步指导你完成这个任务,让你能够快速上手并进行Hive操作。 ## 流程概述 首先,让我们来看一下整个操作的流程。下面是调用Hive的步骤表格: | 步骤 | 操作 | | ------ | ------ | | 1 | 连接到Hive服务器
原创 2024-05-25 06:37:23
88阅读
hive-6UDFUDAFUDTF Hive中内置了很多的函数,包含了日常工作需求的字符串处理、日期时间处理等常用函数,在Hive CLI界面中,可以使用show functions查看全部可用函数,要查看某个函数的作用和用法,可以使用desc function <function_name>指令: 当内置函数无法满足我们的需求时,Hive提供了可供用户自定义函数的接口,通过实现指定
转载 2023-08-10 12:40:04
211阅读
背景上次分享了《Dolphinscheduler配置Datax踩坑记录》,后有小伙伴私信问我说,在交换数据时,遇到hive分区表总是报错。结合实践案例的常见问题,我再记录一下datax读取hive分区表自定义配置的注意事项。注意事项一:分区时间在dolphinscheduler中是可以通过自定义参数设置指定分区时间的,时间声明格式为$[yyyyMMddHHmmss] 注意是中括弧可以根据需求分解成
转载 2023-08-20 17:57:04
77阅读
关于 Hive DML 语法,你可以参考 apache 官方文档的说明:Hive Data Manipulation Language。apache的hive版本现在应该是 0.13.0,而我使用的 hadoop 版本是 CDH5.0.1,其对应的 hive 版本是 0.12.0。故只能参考apache官方文档来看 cdh5.0.1 实现了哪些特性。因为 hive 版本会持续升级,故本篇文章不一定
转载 2024-05-31 07:18:07
81阅读
1.写在前边的话自己电脑上部署的hive版本是hive1.1.1,在终端执行hive 命令时,凡是涉及where语句时,就会出现异常退出,对于一个开发者怎么能忍受这种情况,于是果断升级到hive1.21同时需要注意的是在hive 1.1.1版本中创建table的时候,最后凡是添加一个stored as…的时候也会报错退出,暂时不清楚原因,不过小主估计也是hive版本的问题。(因为版本换到1.2.1
转载 2023-10-22 17:23:22
109阅读
首先,在机器上打开hiveservice hive --service hiveserver -p 50000 & 打开50000端口,然后java就可以使用java连了,需要的jar包我发个图片 二、编写代码package hive; import java.sql.Connection; import java.sql.DriverManager; import java.sql
转载 2023-06-12 19:16:23
103阅读
SQLContext的使用创建一个Scala项目,创建一个主类SQLContextApppackage com.yy.spark import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.SQLContext /** * SQLContext的使用 * Spark 1.x使用 */ obj
转载 2023-08-23 19:58:15
52阅读
配置并连接1 配置文件pom依赖:<dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-data-elasticsearch</artifactId> </de
  • 1
  • 2
  • 3
  • 4
  • 5