/** * 通过Hadoop api访问 * @throws IOException */@Testpublic void readFileByAPI() throws IOException{Configuration conf = new Configuration
hdfs dfs -mkdir -p /user/centos/hadoophdfs dfs -ls /userhdfs dfs -ls -R /user 递归查看hdfs dfs -help put hdfs dfs -put index.html /user/centos/hadoop上传 index.html到hadoop上查看hdfs dfs -lsr下载到本地hdfs dfs
1)启动名称节点 Hadoop-daemon.sh start namenode 2) 启动数据节点hadoop-daemons.sh start datanode slave 3)hadoop-daemon.sh start secondarynamenode 4)查看端口50070netstat -anop
脚本分析start-all.sh 1)首先进入/soft/Hadoop/sbin目录 2)nano start-all.sh sbin/start-all.sh主要做的事情: 1) libexec/hadoop-config.sh 2) start-dfs.sh 3) start-yarn.sh 3)cat libexec/hadoop-config.sh hadoop_conf_d
两张图说清楚名称节点和数据节点
hadoop的端口:50070 //namenode http port50075 //datanode http port50090 //2namenode http port8020 //namenode rpc port50010 //datanode rpc port 查看端口 netstat -ano | more
1)mkdir input2)cd intput3)echo “hello word” > file1.txt4)echo “hello Hadoop” > file2.txt5)echo “hello mapreduce” >> file2.txt6) more file2.txt7) hadoop&
什么是ssh简单说,SSH是一种网络协议,用于计算机之间的加密登录。如果一个用户从本地计算机,使用SSH协议登录另一台远程计算机,我们就可以认为,这种登录是安全的,即使被中途截获,密码也不会泄露。最早的时候,互联网通信都是明文通信,一旦被截获,内容就暴露无疑。1995年,芬兰学者Tatu Ylonen设计了SSH协议,将登录信息全部加密,成为互联网安全的一个基本解决方案,迅速在全世界获得推广,目前
hadoop3种集群方式包括独立模式、伪分布式模式和完全分布式模式 1独立模式安装 a)下载jdk-8u65-linux-x64.tar.gz b)tar开 $>su centos ; cd ~ $>mkdir downloads $>cp /mnt/hdfs/downloads/bigdata/jdk-8u65-linux-x64.tar.gz ~/downloo
流程图解析 典型的BI系统体流程如下: 由于是处理海量数据,流程中各环节所使用的技术则跟传统BI完全不同,后续课程都会一一讲解: 1) 数据采集:定制开发采集程序,或使用开源框架FLUME 2) 数据预处理:定制开发mapreduce程序运行于Hadoop集群 3) 数据仓库技术:基于hadoop之上的Hive 4) 数据导出:基于hadoop的sqoop数据导入导出工具 5) 数据
重点组件:HDFS:分布式文件系统MAPREDUCE:分布式运算程序开发框架Hive:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具Hbase:基于Hadoop的分布式海量数据库ZOOKEEPER:分布式协调服务基础组件Mahout:基于mapreduce/Spark/flink等分布式运算框架的机器学习算法库Oozie:工作流调度框架Sqoop:数据导入导出工具Flume:
1.1.什么是hadoop 1.hadoop是apache旗下的一套开源软件平台,可以通过://apache.org/--->project- ->hadoop打开 2.Hadoop是开源软件,可靠的、分布式、可伸缩的。 3.Hadoop提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理 4.广义上来说,Hadoop通常是指一个更广泛
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号