1.表结构数据
指数据库结构的数据,以字段为基本的存储单位和计算单位。(关系型数据库都是以表结构进行存储,是数据分析工具中最基本的存储结构)。
以整列数据为基本计算单位。
无法对某一特定值进行操作。
无法在行上进行操作。
表中“行”称为记录,“列”称为字段
数据库中,字段的集合为表,表的集合为数据库。
2.表结构特征
一个字段只能有一种数据类型。
用字段名定位字段。
表中所有字段总行数一致,在记录中可以没有值。
表明定义表。
3.表结构数据工具
几乎所有数据分析工具都支持表数据结构:
Excel,SAS,SPSS,R,TableauSoftware,MATLAB,Numbers
4.表格结构数据获取方法
1)数据库系统:使用Navicat等工具,获取其DDL语句。脚本循环。使用Navicat,传输表。
2)可以引用其他工作表和工作薄中的单元格值进行计算。
3)电子表格支持的数据文件:txt,csv,xlsx
4)前端操作平台:CRM,ERP.
5.单元格区域
指的是单个的单元格,或是由多个单元格组成的区域,或者是整行,整列。
6.对象间的父子级关系
一个父级对象下可以包含多个不同的子级对象,但一个子级对象只能属于某一特定的父级对象。(即一对多和多对一的关系)。
跨表筛选应满足维度与公共字段是父子级关系才能保证按照维度下汇总计算的度量方式进行。
7.表格数据引用方法
表格数据获取数据的方式为:引用
方法有:
引用相同(不同)工作表单元格值:A1(sheet! A1)
引用同一(不同)工作表内单元格区域:A1:C4(sheet! A1:C4)
引用多行:1:5
引用多列:A:D
8表格结构数据的查询方法
vlookup()函数
9.表格结构数据常用函数
1)数学函数
函数 | 含义 |
int | 返回整性 |
mod | 返回余数 |
round | 返回四舍五入数值 |
abs | 返回绝对值 |
sqrt | 返回平方根 |
rand | 返回随机数 |
randbetween | 返回指定数之间的随机数 |
2)文本函数
函数 | 含义 |
len | 返回长度 |
text | 返回为text格式 |
replace | 返回替换之后结果 |
subtitle | 返回切剪之后结果 |
3)逻辑函数
函数 | 含义 |
if | 如果 |
and | 和 |
or | 或者 |
4)其他聚合函数,日期函数,查找函数等在数据库常用函数中已体现。
10.表结构数据特征
1)主键:用来识别定位表中的不同行。一般一个表中有一个主键。每一行记录中没有空值与重复值。主键是表的记录单位。
主键的业务意义:表的业务记录单位。
2)维度:一般为离散型变量,有序型或名义型变量,又叫分组依据,分为汇总维度以及筛选维度。
度量:唯度汇总的对象,绝大多数情况下使用连续型变量。
多表出度量作为主表,一表出维度作为附表。
维度筛选度量,度量被维度筛选。
3)缺失值
空值即为空白值,由NULL表示,可以对其进行删除和替换操作。不一定影响计算结果和计算精度。
4)汇总规则
是连接维度与度量的桥梁。
度量值:和(sum),求平均(average),最大值(max),最小值(min)
计数(count)数行数
YTD,QTD,MTD为重要时间维度下汇总计算指标。
将表结构数据进行字段整体的汇总计算可以求得指标结果。
指标需要与维度结合才能统计出结果。
5)数据透视表
维度,度量,汇总计算规则。
6)表结构数据与表格结构数据差异
7)表结构数据连接逻辑
横向合并:通过公共字段匹配。
横向合并两个数据表时,对应关系决定合并结果的行数。
左连接,右连接,内连接,外连接
纵向合并:字段个数和类型相同,字段顺序相同。
union:去重合并,全合并,空值NULL表示。
8)对应关系
一对一,一对多,多对一,多对多。
9)关键字段
关键字段中,有重复值的表为主表,无重复值的表为附表。
11.表结构数据获取渠道及方法
数据库
数据仓库(DW)
可视化工具
CSV,EXCEL,网页等
(应用ETL功能可以导入以上所有提及数据源中的数据到DW中做为表结构数据使用)
12.ETL
ETL(Extract-Transform-Load)(萃取,转置,加载)。ETL在整个数据仓库项目中起着十分关键的作用,贯穿于项目始终,包括数据清洗,整合,转换,加载等各过程。通过ETL,可以基于源系统中的数据来生成数据仓库,搭建了OLTP(联机事务处理)系统与OLAP(联机分析处理)系统之间的桥梁,是数据从源系统流入数据仓库的通道。
13.E-R图
E-R(Entity-Relationship-Diagram)实体-联系图。提供了表示实体类型、属性和联系的方法,用来描述现实世界的概念模型。
eg: