用python玩转数据答案 python玩转大数据

转载

网络安全卫士 2023-09-22 21:19:06

文章标签 数据预处理 Python 数据获取 文章分类 Python 后端开发

这里写目录标题

2 python常用标准库函数

2.1 数学运算 import math
2.2 处理文件 import os
2.3 生成随机数 import random
2.4 时间日期 import datetime

3 数据获取与表示

3.1 打开文件 open
为什么要用 with 语句
文件指针 seek
代码示例：批量读取文件（循环）
3.2 网络数据获取
网页数据解析
3.3 序列

标准类型运算符
序列类型运算符
序列类型转换
序列类型常用内建函数
类型说明符
字符串常用方法
转义字符
列表
元组

3.4 正则表达式
函数式编程

4 数据结构和Python扩展库

4.1 字典

字典的基本操作
字典的内建函数

4.2 集合

集合比较
集合关系运算
集合内建函数

SciPy

SciPy中的数据结构
Numpy
Matplotlib
pandas
ndarray
Series(变长字典)
DataFrame（数据分析）

Numpy常见应用

5 Python数据统计与挖掘

5.1 便捷数据获取

sklearn
nltk

5.2 Python绘图基础

matplotlib
pandas

5.3 数据预处理-数据清洗

缺失值的检测和处理
DataFrame
异常值的检测和处理

☆剔除3倍std
5.4 数据预处理-数据变换

数据规范化
sklean
连续属性离散化
特征二值化

5.5 数据预处理-数据规约（降维）

sklearn

用python玩转数据答案 python玩转大数据_数据预处理

2 python常用标准库函数

2.1 数学运算 import math

用python玩转数据答案 python玩转大数据_数据预处理_02

2.2 处理文件 import os

用python玩转数据答案 python玩转大数据_Python_03

2.3 生成随机数 import random

用python玩转数据答案 python玩转大数据_数据获取_04

2.4 时间日期 import datetime

用python玩转数据答案 python玩转大数据_数据预处理_05

3 数据获取与表示

3.1 打开文件 open

help(open) #查看帮助

用python玩转数据答案 python玩转大数据_数据获取_06

用python玩转数据答案 python玩转大数据_数据获取_07

f1 = open('d://abc.txt')  # 默认'r'读文件,文件必须存在
f2 = open(r'd:/abc.txt','w') # 'w'表示写文件(清空原内容)
f3 = open('d:/abc.txt','w',0)

# a模式是追加，在文件尾部加内容
#  r+ = r + w , w+ = w + r , a+ = a + r

用python玩转数据答案 python玩转大数据_Python_08

为什么要用 with 语句

with 语句适用于对资源进行访问的场合，确保不管使用过程中是否发生异常都会执行必要的“清理”操作，释放资源，比如文件使用后自动关闭／线程中锁的自动获取和释放等
因此无需再另外写 close()语句

文件指针 seek

用python玩转数据答案 python玩转大数据_Python_09

代码示例：批量读取文件（循环）

用python玩转数据答案 python玩转大数据_数据获取_10

用python玩转数据答案 python玩转大数据_数据获取_11

3.2 网络数据获取

用python玩转数据答案 python玩转大数据_数据预处理_12

读取文件常用 r.text 假设获取的是二进制文件，用r.content

有些网站会对http请求的Headers的User-Agent进行检测，需将headers信息传递给get函数的headers参数，例如豆瓣最近也有了此要求，例如知乎，直接访问会返回400，加上headers参数后可正确返回
headers = {'user-agent':'Mozilla/5.0'｝

网页数据解析

用python玩转数据答案 python玩转大数据_数据获取_13

3.3 序列

序列是Python中最基本的数据结构

6种序列，字符串 ’ '、列表 [ ]、==元组( )==是最常用形式

用python玩转数据答案 python玩转大数据_数据获取_14

索引：N个元素的序列，第一个元素索引是 0 ，最后一个元素索引是 N-1; 或者最后一个元素索引 -1，第一个元素索引 -N

用python玩转数据答案 python玩转大数据_数据获取_15

标准类型运算符

用python玩转数据答案 python玩转大数据_Python_16

序列类型运算符

用python玩转数据答案 python玩转大数据_数据获取_17

序列类型转换

用python玩转数据答案 python玩转大数据_Python_18

序列类型常用内建函数

用python玩转数据答案 python玩转大数据_数据预处理_19

enumerate

类型说明符

用python玩转数据答案 python玩转大数据_数据预处理_20

用python玩转数据答案 python玩转大数据_Python_21

字符串常用方法

用python玩转数据答案 python玩转大数据_Python_22

用python玩转数据答案 python玩转大数据_Python_23

转义字符

用python玩转数据答案 python玩转大数据_Python_24

列表

用python玩转数据答案 python玩转大数据_数据预处理_25

元组

用python玩转数据答案 python玩转大数据_数据预处理_26

3.4 正则表达式

用python玩转数据答案 python玩转大数据_Python_27

函数式编程

用python玩转数据答案 python玩转大数据_数据预处理_28

4 数据结构和Python扩展库

4.1 字典

用python玩转数据答案 python玩转大数据_数据预处理_29

用python玩转数据答案 python玩转大数据_数据获取_30

字典的基本操作

用python玩转数据答案 python玩转大数据_Python_31

字典的内建函数

用python玩转数据答案 python玩转大数据_Python_32

4.2 集合

用python玩转数据答案 python玩转大数据_数据获取_33

集合比较

用python玩转数据答案 python玩转大数据_Python_34

集合关系运算

用python玩转数据答案 python玩转大数据_数据获取_35

用python玩转数据答案 python玩转大数据_Python_36

集合内建函数

用python玩转数据答案 python玩转大数据_数据获取_37

SciPy

https://scipy.org/

用python玩转数据答案 python玩转大数据_Python_38

用python玩转数据答案 python玩转大数据_Python_39

SciPy中的数据结构

用python玩转数据答案 python玩转大数据_Python_40

Numpy

用python玩转数据答案 python玩转大数据_数据获取_41

Matplotlib

用python玩转数据答案 python玩转大数据_Python_42

pandas

用python玩转数据答案 python玩转大数据_数据预处理_43

用python玩转数据答案 python玩转大数据_数据预处理_44

ndarray

用python玩转数据答案 python玩转大数据_Python_45

用python玩转数据答案 python玩转大数据_数据获取_46

axis=0 即沿着第0轴进行操作，即对每一列进行操作
axis=1 即沿着第1轴进行操作，即对每一行进行操作

用python玩转数据答案 python玩转大数据_数据获取_47

用python玩转数据答案 python玩转大数据_Python_48

用python玩转数据答案 python玩转大数据_Python_49

a.reshape(2, -1) #2行 n列
a.reshape(-1, 1) #n行 1列 常用于机器学习向量计算

用python玩转数据答案 python玩转大数据_数据获取_50

用python玩转数据答案 python玩转大数据_数据预处理_51

Series(变长字典)

用python玩转数据答案 python玩转大数据_Python_52

DataFrame（数据分析）

用python玩转数据答案 python玩转大数据_Python_53

用python玩转数据答案 python玩转大数据_数据获取_54

用python玩转数据答案 python玩转大数据_数据预处理_55

用python玩转数据答案 python玩转大数据_数据获取_56

用python玩转数据答案 python玩转大数据_Python_57

词频

用python玩转数据答案 python玩转大数据_数据获取_58

Numpy常见应用

5 Python数据统计与挖掘

5.1 便捷数据获取

sklearn

nltk

5.2 Python绘图基础

matplotlib

用python玩转数据答案 python玩转大数据_数据预处理_59

用python玩转数据答案 python玩转大数据_数据获取_60

用python玩转数据答案 python玩转大数据_数据获取_61

用python玩转数据答案 python玩转大数据_数据获取_62

pandas

可以实现基于Series和DataFrame的某些功能，有时比matplotlib方便

.loc基于标签绘图，可以直接将DataFrame的index作为X轴，各组Values作为Y轴

用python玩转数据答案 python玩转大数据_Python_63

用python玩转数据答案 python玩转大数据_数据预处理_64

数据预处理工作通常要占到数据分析和挖掘过程的一半以上

5.3 数据预处理-数据清洗

用python玩转数据答案 python玩转大数据_数据预处理_65

缺失值的检测和处理

用python玩转数据答案 python玩转大数据_Python_66

DataFrame

.dropna #缺失值删除.fillna #缺失值填充（mean均值填充，也可换成其他统计量）

异常值的检测和处理

用python玩转数据答案 python玩转大数据_数据预处理_67

.boxplot 箱型图 describe的图形表现

☆剔除3倍std

用python玩转数据答案 python玩转大数据_数据预处理_68

5.4 数据预处理-数据变换

用python玩转数据答案 python玩转大数据_数据预处理_69

数据规范化

用python玩转数据答案 python玩转大数据_Python_70

用python玩转数据答案 python玩转大数据_Python_71

用python玩转数据答案 python玩转大数据_数据预处理_72

用python玩转数据答案 python玩转大数据_Python_73

sklean

用python玩转数据答案 python玩转大数据_数据预处理_74

用python玩转数据答案 python玩转大数据_数据获取_75

连续属性离散化

用python玩转数据答案 python玩转大数据_数据预处理_76

特征二值化

5.5 数据预处理-数据规约（降维）

用python玩转数据答案 python玩转大数据_数据获取_77

PCA是最常用的线性降维方法

sklearn

用python玩转数据答案 python玩转大数据_数据获取_78

用python玩转数据答案 python玩转大数据_Python_79

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：图神经网络与指针网络图神经网络实例

下一篇：android怎么再定义Class时对元素赋值 class定义类

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯