hadoop的端口:50070 //namenode http port50075 //datanode http port50090 //2namenode http port8020 //namenode rpc port50010 //datanode rpc port 查看端口 netstat -ano | more
1)mkdir input2)cd intput3)echo “hello word” > file1.txt4)echo “hello Hadoop” > file2.txt5)echo “hello mapreduce” >> file2.txt6) more file2.txt7) hadoop&
什么是ssh简单说,SSH是一种网络协议,用于计算机之间的加密登录。如果一个用户从本地计算机,使用SSH协议登录另一台远程计算机,我们就可以认为,这种登录是安全的,即使被中途截获,密码也不会泄露。最早的时候,互联网通信都是明文通信,一旦被截获,内容就暴露无疑。1995年,芬兰学者Tatu Ylonen设计了SSH协议,将登录信息全部加密,成为互联网安全的一个基本解决方案,迅速在全世界获得推广,目前
hadoop3种集群方式包括独立模式、伪分布式模式和完全分布式模式 1独立模式安装 a)下载jdk-8u65-linux-x64.tar.gz b)tar开 $>su centos ; cd ~ $>mkdir downloads $>cp /mnt/hdfs/downloads/bigdata/jdk-8u65-linux-x64.tar.gz ~/downloo
流程图解析 典型的BI系统体流程如下: 由于是处理海量数据,流程中各环节所使用的技术则跟传统BI完全不同,后续课程都会一一讲解: 1) 数据采集:定制开发采集程序,或使用开源框架FLUME 2) 数据预处理:定制开发mapreduce程序运行于Hadoop集群 3) 数据仓库技术:基于hadoop之上的Hive 4) 数据导出:基于hadoop的sqoop数据导入导出工具 5) 数据
重点组件:HDFS:分布式文件系统MAPREDUCE:分布式运算程序开发框架Hive:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具Hbase:基于Hadoop的分布式海量数据库ZOOKEEPER:分布式协调服务基础组件Mahout:基于mapreduce/Spark/flink等分布式运算框架的机器学习算法库Oozie:工作流调度框架Sqoop:数据导入导出工具Flume:
1.1.什么是hadoop 1.hadoop是apache旗下的一套开源软件平台,可以通过://apache.org/--->project- ->hadoop打开 2.Hadoop是开源软件,可靠的、分布式、可伸缩的。 3.Hadoop提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理 4.广义上来说,Hadoop通常是指一个更广泛
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号