dag_process_manager:scheduler有个功能是监控airflow_dags目录下面的dag文件,然后同步到数据库的dag表中,这是添加dag记录的唯一方法,没有其他的入口可以添加一个新的dag;数据库里的dag记录都是Scheduler扫描airflow_dags目录自动生成的;此文件夹中的日志文件dag_process_manager.log记录的便是此过程的日志;
dag_ids:每个dag一个目录,这是dag的执行日志,dag目录下是每个task的目录,每个task一个目录,task目录下面是一个UTC时间戳为名称的目录,这个时间戳也就是task的运行时间,没运行一次,生成一个目录,这个目录下面才是日志文件,可能会retry多次,每次一个日志,从1.log开始排,也就是taskinstance的日志;从概念部分的依赖可以看到,dag_id/task_id/taskInstance timestamp/retry_time.log

scheduler/按日期每天一个目录,latest目录是当天信息,每个dag一个日志文件,里面记录了此dag的调度记录;

/root/airflow/logs
|-- dag_processor_manager
| `-- dag_processor_manager.log
|-- example_kubernetes_executor
| |-- start_task
| | `-- 2019-04-16T01:36:05.221216+00:00
| | `-- 1.log
| `-- three_task
| `-- 2019-04-16T01:36:05.221216+00:00
| `-- 1.log
|-- example_kubernetes_operator
| `-- task
| |-- 2019-04-15T11:20:42.700220+00:00
| | `-- 1.log
| |-- 2019-04-16T00:28:55.663149+00:00
| | `-- 1.log
| |-- 2019-04-16T00:59:23.045582+00:00
| | `-- 1.log
| `-- 2019-04-16T01:23:56.996640+00:00
| `-- 1.log
`-- scheduler
|-- 2019-04-15
| |-- example_kubernetes_executor.py.log
| |-- example_kubernetes_executor_config.py.log
| `-- example_kubernetes_operator.py.log
|-- 2019-04-16
| |-- example_kubernetes_executor.py.log
| `-- example_kubernetes_operator.py.log
`-- latest -> /root/airflow/logs/scheduler/2019-04-16

16 directories, 12 files