cdh搭建1.软件准备操作系统Centos7.3(64位)cmcloudera-manager-centos7-cm5.15.0_x86_64.tar.gzcdhCDH-5.15.0-1.cdh5.15.0.p0.21-el7.parcelCDH-5.15.0-1.cdh5.15.0.p0.21-el7.parcel.sha1manifest.jsonmysqlmysql-community-co
在编写shell脚本时,为了使脚步具有更大的灵活性,往往我们会在执行脚本时再去传递想要实现的参数,而不是在脚本中直接写死参数变量,但我们在做参数传递时需要注意,外部传入的参数变量不能放在function中进行判断,否则参数传递会失效,如下,在test.sh脚本中,假设我们需要先判断在执行脚本时是否传入了参数,如果传入了就将传入的参数赋值给a并输出,否则提示未传入参数:if[-n"$1"
通过ssh连接腾讯云服务器时,稍微隔一段时间未操作连接便会断开,要解决这个问题需要对配置文件做一些调整。参照网上的介绍,尝试了两种方案,经过测试第二种方案对我的机器没有效果(也许对其它系统的机器有效),第一种方案可行。1.编辑/etc/ssh/sshd_config文件取消上图红框中两个参数的注释,并按上图调整参数。ClientAliveInterval:服务端每隔几秒向客户端发送一个心跳数据Cl
一、hive在执行sql时会以mapreduce的方式对数据进行接入和处理,其主要包含以下几个阶段:1.hive首先根据sql语句中的表从hdfs文件中获取数据,对数据文件进行split操作,使其可以一行一行将所需数据读入内存;2.map函数将内存中的数据按照key值进行映射,形成一行一行的key-value值,比如用户表中的性别字段,内存中map处理后的记录如下:3.在实际应用中会有多台机器参与
1.首先在mysql官网下载rpm文件,在命令行界面输入:wgethttp://dev.mysql.com/get/mysql80-community-release-el7-3.noarch.rpm,如果对这个版本不满意也可以登录https://dev.mysql.com/downloads/repo/yum/选择自己喜欢的版本进行下载;2.下载完rpm包后使用centos自带的yum进行安装,
大数据环境下使用hive进行数仓建设
python安装virtualenv环境:https://www.jianshu.com/p/a83a8f5d68dd?utm_campaign=maleskine&utm_content=note&utm_medium=writer_share&utm_source=weibo
数据倾斜通常指hive根据key值hash分发到各个节点,相同的key值会分发到一个执行节点中,由于某些key值对应的数据量比其它key值的数据量大很多,导致某些执行节点的运行时间远大于其它节点,从而导致整个job执行时间较长。在hive中执行的sql会有map和reduce两个阶段,map阶段的数据倾斜主要为数据从磁盘读入内存时、join,reduce阶段数据倾斜主要有join、groupby、
数据模型:抽象描述现实世界的一种工具和方法,通过抽象的实体及实体之间联系的形式,来表示现实世界中事务的相互关系的一种映射。在这里,数据模型表现的抽象的是实体和实体之间的关系,通过对实体和实体之间关系的定义和描述,来表达实际的业务中具体的业务关系。.数据仓库模型:数据模型中针对特定的数据仓库应用系统的一种特定的数据模型,一般而言,数据仓库模型分为以下几个层次。1)业务建模,生成业务模型,主要解决业务
数仓模型案例一、范式建模1.零范式为便于分级说明三范式的特点,我们将不满足任何范式即无范式的数据称为零范式,假设它只满足一个最基本的条件——数据中不存在重复数据。假设根据零范式的定义数据库中有一张保险订单统计表,表中包含了用户id、保险id、用户名、注册省份、注册城市、注册区县、保险名称、购买信息(价格、数量)、总保费、购买日期。具体情况如下图:2.一范式在零范式的基础上加上字段具有原子性即属性不
1.fromfutureimportabsolute_import模块绝对路径引用,当自己在当前目录开发的模块名与系统模块名发生冲突时,python会首先使用自己开发的模块(首先在当前目录搜索),若要使用系统自带的模块,需在代码开头加上上面的引用语句,将模块引用方式转化为绝对路径引用。举个例,当前代码结构如下:pkg/init.pypkg/main.pypkg/string.py当main.py模
1)打开VirtualBox,选中相应虚拟机(不要启动),点击“设置”2)选择介质,选中SATA控制器,点选增加虚拟硬盘的图标3)选择新建,进入“创建新的虚拟硬盘”向导,点击下一步4)设定新虚拟硬盘所在位置和空间大小5)确认信息后点击完成6)若未成功,关闭窗口后重新进入设置,点选添加新盘图标,刚刚的新盘会自动添加上7)点击确定,现在虚拟机就多了一个虚拟硬盘8)接下来几步很关键!在虚拟机上创建分区:
笔记本上安装了2.7和3.5两个版本的python,在使用3.5版本的pip安装keras时出现了failedtocreateprocess错误。解决方法如下:1.由于我在环境变量中同时配置了2.7和3.5的路径,所以我可以直接在命令行下执行python3来启动3.5版本的python;2.通过python3来启动pip,在命令行中输入python3-mpipinstallkeras,成功安装上k
使用git连接之前配置好的公司内部git服务器时遇到无连接权限问题。根据提示发现是服务器切换了内部ip地址,因此需要在known_hosts文件夹中重新设置ip。1.首先进入.ssh文件夹,该目录下共有4个文件,分别为config,id_rsa,id_rsa.pub,known_hosts(如果没有可以手动创建)2.备份删除id_rsa,id_rsa.pub3.在config文件最后一行添加Str
最近做项目时发现一个很好用的包——collections,这它是Python内建的一个集合模块,提供了许多有用的集合类,下面记录一些我觉得很有用的类或方法。1.CounterCounter可以帮我们直接计算出元素的数量importcollectionsdata1=['a','b','c','a','b','a']col_1=collections.Counter(data1)data2='pyth
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号