这里写目录标题
- 2 python常用标准库函数
- 2.1 数学运算 import math
- 2.2 处理文件 import os
- 2.3 生成随机数 import random
- 2.4 时间日期 import datetime
- 3 数据获取与表示
- 3.1 打开文件 open
- 为什么要用 with 语句
- 文件指针 seek
- 代码示例:批量读取文件(循环)
- 3.2 网络数据获取
- 网页数据解析
- 3.3 序列
- 标准类型运算符
- 序列类型运算符
- 序列类型转换
- 序列类型常用内建函数
- 类型说明符
- 字符串常用方法
- 转义字符
- 列表
- 元组
- 3.4 正则表达式
- 函数式编程
- 4 数据结构和Python扩展库
- 4.1 字典
- 字典的基本操作
- 字典的内建函数
- 4.2 集合
- 集合比较
- 集合关系运算
- 集合内建函数
- SciPy
- SciPy中的数据结构
- Numpy
- Matplotlib
- pandas
- ndarray
- Series(变长字典)
- DataFrame(数据分析)
- Numpy常见应用
- 5 Python数据统计与挖掘
- 5.1 便捷数据获取
- sklearn
- nltk
- 5.2 Python绘图基础
- matplotlib
- pandas
- 5.3 数据预处理-数据清洗
- 缺失值的检测和处理
- DataFrame
- 异常值的检测和处理
- ☆剔除3倍std
- 5.4 数据预处理-数据变换
- 数据规范化
- sklean
- 连续属性离散化
- 特征二值化
- 5.5 数据预处理-数据规约(降维)
- sklearn

2 python常用标准库函数
2.1 数学运算 import math

2.2 处理文件 import os

2.3 生成随机数 import random

2.4 时间日期 import datetime

3 数据获取与表示
3.1 打开文件 open
help(open) #查看帮助


f1 = open('d://abc.txt') # 默认'r'读文件,文件必须存在
f2 = open(r'd:/abc.txt','w') # 'w'表示写文件(清空原内容)
f3 = open('d:/abc.txt','w',0)
# a模式是追加,在文件尾部加内容
# r+ = r + w , w+ = w + r , a+ = a + r
为什么要用 with 语句
with 语句适用于对资源进行访问的场合,确保不管使用过程中是否发生异常都会执行必要的“清理”操作,释放资源,比如文件使用后自动关闭/线程中锁的自动获取和释放等
因此无需再另外写 close()语句
文件指针 seek

代码示例:批量读取文件(循环)


3.2 网络数据获取

读取文件常用 r.text 假设获取的是二进制文件,用r.content
有些网站会对http请求的Headers的User-Agent进行检测,需将headers信息传递给get函数的headers参数,例如豆瓣最近也有了此要求,例如知乎,直接访问会返回400,加上headers参数后可正确返回headers = {'user-agent':'Mozilla/5.0'}
网页数据解析

3.3 序列
序列是Python中最基本的数据结构
6种序列, 字符串 ’ '、列表 [ ]、==元组( )==是最常用形式

索引:N个元素的序列,第一个元素索引是 0 ,最后一个元素索引是 N-1; 或者 最后一个元素索引 -1,第一个元素索引 -N

标准类型运算符

序列类型运算符

序列类型转换

序列类型常用内建函数

enumerate
类型说明符


字符串常用方法


转义字符

列表

元组

3.4 正则表达式

函数式编程

4 数据结构和Python扩展库
4.1 字典


字典的基本操作

字典的内建函数

4.2 集合

集合比较

集合关系运算


集合内建函数

SciPy


SciPy中的数据结构

Numpy

Matplotlib

pandas


ndarray


axis=0 即沿着第0轴进行操作,即对每一列进行操作
axis=1 即沿着第1轴进行操作,即对每一行进行操作



a.reshape(2, -1) #2行 n列
a.reshape(-1, 1) #n行 1列 常用于机器学习向量计算

Series(变长字典)

DataFrame(数据分析)





词频

Numpy常见应用
5 Python数据统计与挖掘
5.1 便捷数据获取
sklearn
nltk
5.2 Python绘图基础
matplotlib




pandas
可以实现基于Series和DataFrame的某些功能,有时比matplotlib方便
.loc基于标签绘图,可以直接将DataFrame的index作为X轴,各组Values作为Y轴


数据预处理工作通常要占到数据分析和挖掘过程的一半以上
5.3 数据预处理-数据清洗

缺失值的检测和处理

DataFrame
.dropna #缺失值删除.fillna #缺失值填充 (mean均值填充,也可换成其他统计量)
异常值的检测和处理

.boxplot 箱型图 describe的图形表现
☆剔除3倍std

5.4 数据预处理-数据变换

数据规范化




sklean


连续属性离散化

特征二值化
5.5 数据预处理-数据规约(降维)

PCA是最常用的线性降维方法
sklearn


















