一、 Hadoop2.8.5
1、 HDFS的一些访问端口和启动方式
- 启动 start-dfs.sh
- 端口号 hadoop3.x
- NameNode
9000:API操作 8020
50070:web访问端口 9870 - DataNode
50010:dn和snn通信的端口 9866
50075:web访问端口 9864 - SecondaryNameNode
50090:web访问端口 9868
2、 Yarn的一些访问端口和启动方式
- 启动 start-yarn.sh
- 端口号
- resourceManager
8088:web访问端口 - nodeManager
3、 MR历史日志服务器访问端口和启动方式
- 启动 hadoop3.x
mr-jobhistory-daemon.sh start historyserver mapred --daemon start historyserver - 端口号
19888:web 访问端口
二、 Hive2.3.8
- 启动
nohup hiveserver2 1>/opt/app/hive-2.3.8/hive.log 2>&1 & - 端口号
10000:jdbc:hive2://node1:10000
三、 MySQL8.0
- 启动
systemctl start mysqld - 端口号
3306:通信端口
四、 azkaban3.85.0
- 启动(需要在安装目录下启动)
bin/start-web.sh
bin/start-exec.sh - 端口号
- webserver
8081:web访问端口 - execserver
12321:通信端口
五、 sqoop1.4.7
import
bin/sqoop import \
--connect jdbc:mysql://doit01:3306/realtimedw \
--username root \
--password ABC123abc.123 \
--table dim_pginfo \
--target-dir /sqoopdata/dim_pginfo2 \
--fields-terminated-by '\001' \
--delete-target-dir \
--compress \
--compression-codec gzip \
--split-by id \
-m 2
参数说明 :
import 说明是一个数据导入到hdfs的过程
\ 斜杠是多行shell命令换行符号
–connect jdbc:mysql://doit01:3306/realtimedw 这是mysql连接协议及其地址,注意包含了数据库名字
–username root
–password ABC123abc.123
这个分别是mysql的账号和密码
–table dim_pginfo 这是数据库的表名
–target-dir /sqoopdata/dim_pginfo2 这是hdfs上对应存放数据目录路径‘
–fields-terminated-by ‘\001’ 这是文件以什么分割符号切割,这里一般都是以不可见不可打印字符分割,因为可以打印可以显式的符号很容易出现在mysql字段的字符串中,引发后续结构化文件读取处理时那一有效正确切割的问题。
–delete-target-dir 这个是大家写mr程序时经常会遇到的输出文件已存在,就会报异常。这个参数是,如果目标目录已存在,则删除掉旧的目录。注意,一定一定检查,是否有必要删除旧的目录
–compress
–compression-codec gzip
这是指定是否压缩,以及压缩文件格式。可以使用多种压缩文件格式
–split-by id 这是指定,mysql文件中,使用哪个字段进行文件划分,因为mapreduce是会并行执行,这时候需要指定每个并行任务根据哪个字段对文件做切割划分
-m 2 这是maptask的数量设置,这里设置是2.
可以指定生产的文件类型
–as-avrodatafile
–as-parquetfile
–as-sequencefile
–as-textfile
–query ‘select id,member_id,order_sn,receiver_province from doit_mall.oms_order where id>20 and $CONDITIONS’
--where "stu_age>25" \ 过滤条件
--columns "stu_id,stu_name,stu_phone" \ 选择列
--null-string '\\N' \ 空字符串存储
--hive-import \ 从hive中导入
--hive-table yiee_dw.doit_jw_stu_base3 \ hive的表名
注:有了–query,就不要有–table了,也不要有–where了,也不要有–columns了
export
sqoop export \
--connect jdbc:mysql://h3:3306/dicts \
--username root \
--password haitao.211123 \
--table dau_t \
--input-fields-terminated-by ',' \
--export-dir '/user/hive/warehouse/dau_t' \
--batch
参数解释:
–connect jdbc:mysql://h3:3306/dicts \ 这是mysql链接地址,注意还有数据库名字
–username root
–password haitao.211123 \账号密码
–table dau_t \ 表的名字
–input-fields-terminated-by ‘,’ \ 切割符号
–export-dir ‘/user/hive/warehouse/dau_t’ \ 指定从hdfs哪个目录下导出
–batch # 以batch模式去执行sql
–input-null-string ‘\N’
–input-null-non-string ‘\N’ \ 指定hdfs中的符号被mysql解析为null
–update-mode allowinsert \ 这是更新模式,允许追加以及更新数据
–update-key id \ 更新字段依据
六、 Flume1.8.0
启动方式:
1)全写
bin/flume-ng agent --conf conf --conf-file job/flume-netcat-logger.conf --name a1
(-Dflume.root.logger=INFO,console)
2)缩写
bin/flume-ng agent -c conf -f job/flume-netcat-logger.conf -n a1
(-Dflume.root.logger=INFO,console)
参数说明:
-c:指向flume安装目录下conf目录的绝对路径
-f:指向flume-app.conf文件的绝对路径
-n:flume-app.conf文件中agent的名字
-Dflume:启动日志打印到当前控制台
七、 spark2.3.1
1、 独立调度器
- 启动
start-spark-all.sh - 端口号
- master
7077:通信端口
8080:web访问端口(自己设置8888) (sbin
目录下编辑start-master.sh的
SPARK_MASTER_WEBUI_PORT) - worker
8081:webUI访问端口(自己设置9999)(sbin
目录下编辑start-slave.sh的
SPARK_WORKER_WEBUI_PORT)
2、 历史日志服务器
- 启动
start-history-server.sh - 端口号 spark3.x
4000:web访问端口 18080
八、 tomcat8.5.55
- 启动
bin/startup.sh - 端口号
8080:web访问端口
九、 zookeeper3.4.6
- 启动
zkServer.sh start - 端口号
- 2181:对client端提供服务
- 3888:leader选举
- 2888:集群内的机器通讯使用
十、 kafka0.11.0.0
- 启动
kafka-server-start.sh server.properties路径 & - 端口号
9092:默认端口号