这里写目录标题

  • 2 python常用标准库函数
  • 2.1 数学运算 import math
  • 2.2 处理文件 import os
  • 2.3 生成随机数 import random
  • 2.4 时间日期 import datetime
  • 3 数据获取与表示
  • 3.1 打开文件 open
  • 为什么要用 with 语句
  • 文件指针 seek
  • 代码示例:批量读取文件(循环)
  • 3.2 网络数据获取
  • 网页数据解析
  • 3.3 序列
  • 标准类型运算符
  • 序列类型运算符
  • 序列类型转换
  • 序列类型常用内建函数
  • 类型说明符
  • 字符串常用方法
  • 转义字符
  • 列表
  • 元组
  • 3.4 正则表达式
  • 函数式编程
  • 4 数据结构和Python扩展库
  • 4.1 字典
  • 字典的基本操作
  • 字典的内建函数
  • 4.2 集合
  • 集合比较
  • 集合关系运算
  • 集合内建函数
  • SciPy
  • SciPy中的数据结构
  • Numpy
  • Matplotlib
  • pandas
  • ndarray
  • Series(变长字典)
  • DataFrame(数据分析)
  • Numpy常见应用
  • 5 Python数据统计与挖掘
  • 5.1 便捷数据获取
  • sklearn
  • nltk
  • 5.2 Python绘图基础
  • matplotlib
  • pandas
  • 5.3 数据预处理-数据清洗
  • 缺失值的检测和处理
  • DataFrame
  • 异常值的检测和处理
  • ☆剔除3倍std
  • 5.4 数据预处理-数据变换
  • 数据规范化
  • sklean
  • 连续属性离散化
  • 特征二值化
  • 5.5 数据预处理-数据规约(降维)
  • sklearn

用python玩转数据答案 python玩转大数据_数据预处理

2 python常用标准库函数

2.1 数学运算 import math

用python玩转数据答案 python玩转大数据_数据预处理_02

2.2 处理文件 import os

用python玩转数据答案 python玩转大数据_Python_03

2.3 生成随机数 import random

用python玩转数据答案 python玩转大数据_数据获取_04

2.4 时间日期 import datetime

用python玩转数据答案 python玩转大数据_数据预处理_05

3 数据获取与表示

3.1 打开文件 open

help(open) #查看帮助

用python玩转数据答案 python玩转大数据_数据获取_06


用python玩转数据答案 python玩转大数据_数据获取_07

f1 = open('d://abc.txt')  # 默认'r'读文件,文件必须存在
f2 = open(r'd:/abc.txt','w') # 'w'表示写文件(清空原内容)
f3 = open('d:/abc.txt','w',0)

# a模式是追加,在文件尾部加内容
#  r+ = r + w , w+ = w + r , a+ = a + r

用python玩转数据答案 python玩转大数据_Python_08

为什么要用 with 语句

with 语句适用于对资源进行访问的场合,确保不管使用过程中是否发生异常都会执行必要的“清理”操作,释放资源,比如文件使用后自动关闭/线程中锁的自动获取和释放等
因此无需再另外写 close()语句

文件指针 seek

用python玩转数据答案 python玩转大数据_Python_09

代码示例:批量读取文件(循环)

用python玩转数据答案 python玩转大数据_数据获取_10


用python玩转数据答案 python玩转大数据_数据获取_11

3.2 网络数据获取

用python玩转数据答案 python玩转大数据_数据预处理_12


读取文件常用 r.text 假设获取的是二进制文件,用r.content

有些网站会对http请求的Headers的User-Agent进行检测,需将headers信息传递给get函数的headers参数,例如豆瓣最近也有了此要求,例如知乎,直接访问会返回400,加上headers参数后可正确返回
headers = {'user-agent':'Mozilla/5.0'}

网页数据解析

用python玩转数据答案 python玩转大数据_数据获取_13

3.3 序列

序列是Python中最基本的数据结构

6种序列, 字符串 ’ '列表 [ ]、==元组( )==是最常用形式

用python玩转数据答案 python玩转大数据_数据获取_14

索引:N个元素的序列,第一个元素索引是 0 ,最后一个元素索引是 N-1; 或者 最后一个元素索引 -1,第一个元素索引 -N

用python玩转数据答案 python玩转大数据_数据获取_15

标准类型运算符

用python玩转数据答案 python玩转大数据_Python_16

序列类型运算符

用python玩转数据答案 python玩转大数据_数据获取_17

序列类型转换

用python玩转数据答案 python玩转大数据_Python_18

序列类型常用内建函数

用python玩转数据答案 python玩转大数据_数据预处理_19


enumerate

类型说明符

用python玩转数据答案 python玩转大数据_数据预处理_20


用python玩转数据答案 python玩转大数据_Python_21

字符串常用方法

用python玩转数据答案 python玩转大数据_Python_22


用python玩转数据答案 python玩转大数据_Python_23

转义字符

用python玩转数据答案 python玩转大数据_Python_24

列表

用python玩转数据答案 python玩转大数据_数据预处理_25

元组

用python玩转数据答案 python玩转大数据_数据预处理_26

3.4 正则表达式

用python玩转数据答案 python玩转大数据_Python_27

函数式编程

用python玩转数据答案 python玩转大数据_数据预处理_28

4 数据结构和Python扩展库

4.1 字典

用python玩转数据答案 python玩转大数据_数据预处理_29


用python玩转数据答案 python玩转大数据_数据获取_30

字典的基本操作

用python玩转数据答案 python玩转大数据_Python_31

字典的内建函数

用python玩转数据答案 python玩转大数据_Python_32

4.2 集合

用python玩转数据答案 python玩转大数据_数据获取_33

集合比较

用python玩转数据答案 python玩转大数据_Python_34

集合关系运算

用python玩转数据答案 python玩转大数据_数据获取_35

用python玩转数据答案 python玩转大数据_Python_36

集合内建函数

用python玩转数据答案 python玩转大数据_数据获取_37

SciPy

https://scipy.org/

用python玩转数据答案 python玩转大数据_Python_38


用python玩转数据答案 python玩转大数据_Python_39

SciPy中的数据结构

用python玩转数据答案 python玩转大数据_Python_40

Numpy

用python玩转数据答案 python玩转大数据_数据获取_41

Matplotlib

用python玩转数据答案 python玩转大数据_Python_42

pandas

用python玩转数据答案 python玩转大数据_数据预处理_43


用python玩转数据答案 python玩转大数据_数据预处理_44

ndarray

用python玩转数据答案 python玩转大数据_Python_45


用python玩转数据答案 python玩转大数据_数据获取_46

axis=0 即沿着第0轴进行操作,即对每一列进行操作
axis=1 即沿着第1轴进行操作,即对每一行进行操作

用python玩转数据答案 python玩转大数据_数据获取_47


用python玩转数据答案 python玩转大数据_Python_48


用python玩转数据答案 python玩转大数据_Python_49

a.reshape(2, -1) #2行 n列
a.reshape(-1, 1) #n行 1列 常用于机器学习向量计算

用python玩转数据答案 python玩转大数据_数据获取_50


用python玩转数据答案 python玩转大数据_数据预处理_51

Series(变长字典)

用python玩转数据答案 python玩转大数据_Python_52

DataFrame(数据分析)

用python玩转数据答案 python玩转大数据_Python_53


用python玩转数据答案 python玩转大数据_数据获取_54

用python玩转数据答案 python玩转大数据_数据预处理_55


用python玩转数据答案 python玩转大数据_数据获取_56


用python玩转数据答案 python玩转大数据_Python_57


词频

用python玩转数据答案 python玩转大数据_数据获取_58

Numpy常见应用

5 Python数据统计与挖掘

5.1 便捷数据获取

sklearn

nltk

5.2 Python绘图基础

matplotlib

用python玩转数据答案 python玩转大数据_数据预处理_59


用python玩转数据答案 python玩转大数据_数据获取_60


用python玩转数据答案 python玩转大数据_数据获取_61


用python玩转数据答案 python玩转大数据_数据获取_62

pandas

可以实现基于Series和DataFrame的某些功能,有时比matplotlib方便

.loc基于标签绘图,可以直接将DataFrame的index作为X轴,各组Values作为Y轴

用python玩转数据答案 python玩转大数据_Python_63


用python玩转数据答案 python玩转大数据_数据预处理_64

数据预处理工作通常要占到数据分析和挖掘过程的一半以上

5.3 数据预处理-数据清洗

用python玩转数据答案 python玩转大数据_数据预处理_65

缺失值的检测和处理

用python玩转数据答案 python玩转大数据_Python_66

DataFrame

.dropna #缺失值删除.fillna #缺失值填充 (mean均值填充,也可换成其他统计量)

异常值的检测和处理

用python玩转数据答案 python玩转大数据_数据预处理_67


.boxplot 箱型图 describe的图形表现

☆剔除3倍std

用python玩转数据答案 python玩转大数据_数据预处理_68

5.4 数据预处理-数据变换

用python玩转数据答案 python玩转大数据_数据预处理_69

数据规范化

用python玩转数据答案 python玩转大数据_Python_70


用python玩转数据答案 python玩转大数据_Python_71


用python玩转数据答案 python玩转大数据_数据预处理_72


用python玩转数据答案 python玩转大数据_Python_73

sklean

用python玩转数据答案 python玩转大数据_数据预处理_74


用python玩转数据答案 python玩转大数据_数据获取_75

连续属性离散化

用python玩转数据答案 python玩转大数据_数据预处理_76

特征二值化

5.5 数据预处理-数据规约(降维)

用python玩转数据答案 python玩转大数据_数据获取_77


PCA是最常用的线性降维方法

sklearn

用python玩转数据答案 python玩转大数据_数据获取_78


用python玩转数据答案 python玩转大数据_Python_79