Logo

  • JackmaSong

    发布于:19 天前

    1

    2018-09-05期 Hive客户端操作(JDBC和Thrift方式)
    说明:使用的都是CLI或者hive –e的方式仅允许使用HiveQL执行查询、更新等操作。然而Hive也提供客户端的实现,通过HiveServer或者HiveServer2,客户端可以在不启动CLI的情况下对Hive中的数据进行操作,两者都允许远程客户端使用多种编程语言如Java、Python向Hive提交请求,取回结果。HiveServer与HiveServer2的异同?HiveServer和H
    阅读 244 评论 1 收藏 0
  • JackmaSong

    发布于:20 天前

    1

    20180904期 Hive数据模型-桶表
    一、概述1、桶表是对数据进行哈希取值,然后放到不同文件中存储。2、数据加载到桶表时,会对字段取hash值,然后与桶的数量取模。把数据放到对应的文件中。3、物理上,每个桶就是表(或分区)目录里的一个文件,一个作业产生的桶(输出文件)和reduce任务个数相同。4、桶表专门用于抽样查询,是很专业性的,不是日常用来存储数据的表,需要抽样查询时,才创建和使用桶表。二、创建桶表这里按照ename来创建桶表,
    阅读 169 评论 1 收藏 0
  • JackmaSong

    发布于:21 天前

    1

    2018-09-03期 Hive 分区表
    一、分区表概述分区表也是内部表,创建表时可以同时为表创建一个或多个分区,这样我们在加载数据时为其指定具体的分区,查询数据时可以指定具体的分区从而提高效率,分区可以理解为表的一个特殊的列。关键字是partitioned。分区表实际上是将表文件分成多个有标记的小文件方便查询。二、创建分区表这里我们将oracle用户scott下的emp表导出的emp.csv文件在Hive中创建分区表存放,按照部门编号进
    阅读 179 评论 1 收藏 0
  • JackmaSong

    发布于:24 天前

    1

    2018-08-31期 Hive体系结构
    一、什么是Hive(1)Hive是Hadoop工具家族中一个重要成员,可以将结构化的数据文件(HDFS)映射为一张数据库表。(2)Hive 定义了简单的类 SQL 查询语言,被称为 HQL,实现方便高效的数据查询(3)Hive的本质是将HQL,转换成MapReduce任务,完成整个的数据的ETL,减少编写MapReduce的复杂度(4)Hive是一个数据分析引擎,提供不懂Java程序的数据分析人员
    阅读 197 评论 1 收藏 1
  • JackmaSong

    发布于:25 天前

    1

    2018-08-30期 Hive外部元数据库配置
    一、说明Hive默认情况下使用derby作为元数据库,derby元数据库只允许单连接,如果两个会话在相同目录去连接hive,会导致第二个连上的用户做相同操作报错,如下图:A用户连接到hive,并创建一个表,创建完成后只需show tables操作[root@hadoop-server01 hive-0.12.0-bin]# bin/hivehive> create table t_user(
    阅读 207 评论 1 收藏 0
  • JackmaSong

    发布于:26 天前

    1

    2018-08-29期 利用Hive统计双色球中奖情况
    下面以双色球中奖数据作为示例,利用hive外部表来统计双色球近10年每1列每个数字的中奖次数一、下面文件shuangseqiu.dat是近10年双色球的所有中奖号码,格式如下28 27 30 18 03 01 0531 23 03 12 14 32 1014 19 02 24 18 07 0122 27 03 16 11 06 1106 17 08 23 16 01 0530 01 29 31 0
    阅读 214 评论 1 收藏 0
  • JackmaSong

    发布于:27 天前

    1

    2018-08-28期 Hive的内部表和外部表
    一、内部表和外部表区别一般情况下不指定关键字External关键字创建的表都为内部表,数据默认存放在/user/hive/warehouse目录下外部表创建是需要指定External关键字,可以手动指定存放目录,有Location关键字指定,数据可以存放到Hdfs任意目录下。二、下面创建一个外部表t_org,存放的数据形式如下orgid orgname orgytpeG0001 xiaoshou
    阅读 238 评论 1 收藏 0
  • JackmaSong

    发布于:28 天前

    1

    2018-08-27期 Hive命令行基本操作
    一、检查之前创建的表在hdfs中的存储位置这里假设有一个文件具有以下类数据,假设文件名称为user.txtuserid username orgid logintimesU0001 Zhangsan G0001 10U0002 Lisi G0001 12U0003 Wangwu G0002 13U0004 Liuneng G0002 18U0005 Zhaosi G0004 29数据已制
    阅读 240 评论 1 收藏 0
  • JackmaSong

    发布于:29 天前

    1

    2018-08-26期 Hive安装配置
    说明:        Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需要的内容,这套SQL 简称Hive SQL,使不
    阅读 298 评论 1 收藏 0
  • CoXie大数据

    发布于:2018-08-13 01:45:46

    1

    Hive几种数据导入方式
    写在前面的话,学Hive这么久了,发现目前国内还没有一本完整的介绍Hive的书籍,而且互联网上面的资料很乱,于是我决定写一些关于《Hive的那些事》序列文章,分享给大家。我会在接下来的时间整理有关Hive的资料,如果对Hive的东西感兴趣,请关注本博客。今天的话题是总结Hive的几种常见的数据导入方式,我总结为四种:(1)、从本地文件系统中导入数据到Hive表;(2)、从HDFS上导入数据到Hiv
    阅读 262 评论 0 收藏 0
写文章