1.DataFrame(续)

数据分析2-1_显式

 (1)

数据分析2-1_数据_02

(2)

数据分析2-1_显式_03

(3)

数据分析2-1_显式_04

(4)DataFrame的索引

数据分析2-1_显式_05

 

 (5)

 

数据分析2-1_数据_06

(6)修改列索引

先取出一列

数据分析2-1_显式_07

下面这样写会出错,索引的问题出现了NaN

数据分析2-1_数据_08

(7)

 

数据分析2-1_数据_09

(8)如何取出,前两列?

数据分析2-1_浮点_10

(9)

 

数据分析2-1_数据_11

 

数据分析2-1_显式_12

(10)

 

数据分析2-1_浮点_13

(11)如何取出第一行?

用loc:显式索引

数据分析2-1_浮点_14

(12)

 

数据分析2-1_显式_15

(13)

 

数据分析2-1_浮点_16

(14)

 

数据分析2-1_浮点_17

数据分析2-1_数据_18

方式:一点点取值

 (15)

 

数据分析2-1_显式_19

(16)

 

数据分析2-1_数据_20

切片可以用在行索引

(17)切片也可以用在列索引

数据分析2-1_数据_21

(18)

 

数据分析2-1_数据_22

(19)修改索引

数据分析2-1_浮点_23

(20)

 

数据分析2-1_显式_24

(21)下面我们copy一下

数据分析2-1_显式_25

数据分析2-1_浮点_26

(22)注意:索引对不起会有空值产生

 

数据分析2-1_显式_27

(23)

 

数据分析2-1_显式_28

 

数据分析2-1_显式_29

 

 

数据分析2-1_显式_30

 (24)第一题

数据分析2-1_显式_31

(25)第二题

数据分析2-1_显式_32

(26)第三题

数据分析2-1_显式_33

(27)第四题

 

数据分析2-1_显式_34

2.处理丢失数据

数据分析2-1_数据_35

(1)None空是对象类型

 

数据分析2-1_数据_36

 

(2)NaN是浮点类型

 

数据分析2-1_数据_37

数据分析2-1_数据_38

 

(3)

 

数据分析2-1_显式_39

index是行索引

数据分析2-1_数据_40

(4)

 

数据分析2-1_显式_41

上边的数据,当然是删除有空值的行比较好,或者覆盖也行(用已有的数据进行处理)

(5)下面的方式不合适

 

数据分析2-1_显式_42

对每一个元素进行空值或非空值判断

数据分析2-1_浮点_43

如果有一个True就可以进行判断了

 

(6)我们需要对每一个元素进行判断

 axis中值是1,表示的是行,值是0,表示的是列

 

数据分析2-1_数据_44

any表示的是其中有一个True,就返回True

(7)

数据分析2-1_显式_45

对比any和all的区别?

all是有一个false就返回false

 (8)取反操作

数据分析2-1_显式_46

 

数据分析2-1_数据_47

 

(9)

 

数据分析2-1_数据_48

isnull跟any

notnull跟all

(10)

 

数据分析2-1_数据_49

(11)

将含有空值的列删除

数据分析2-1_数据_50

(12)将含有空值的行删除

特点:只有在drop系列的函数中,轴向的参数值0表示的是行,1表示的是列

其他方法是相反的

数据分析2-1_显式_51

数据分析2-1_显式_52

 

(13)将数据映射回修改好的数据

 

数据分析2-1_数据_53

(14)labels看后边的axis的值确定是行索引还是列索引

删除D

数据分析2-1_显式_54

 (15)

数据分析2-1_数据_55

空值都都修改成10,数据误差会比较大

数据分析2-1_浮点_56

(16)向前填充,向上填充

数据分析2-1_数据_57

(17)向后填充,向下填充

数据分析2-1_显式_58

(18)

数据分析2-1_浮点_59

(19)

数据分析2-1_显式_60

(20)

数据分析2-1_数据_61

limit表示限定的次数,知道有这么一个东西就行

 (21)

 清洗的数据可能是空值或者异常值,我们进行基本的操作.

不是一次性的填充.可以进行多次填充.

(22)

 

数据分析2-1_浮点_62

1.pandas中没有区别,numpy是有区别的

 None是对象,NaN是浮点型

 

 3.构建多层级索引

数据分析2-1_数据_63

最后,记住结论就可以了