前言

之前一直做大数据方向的工作,用spark、flink、hive等等处理数据居多,语言方面一般使用scala、java很少用到python,但是不得不说如果想要从事算法方向的工作还是必须得把python用熟练了。下面整理一下学习的流程。

Python基础

这个很简单,但很重要,推荐看一下这本书的基础部分
主要掌握知识点:

  • 常用的数据结构及对应方法
  • 三种控制流的使用
  • 字符串的常用处理方法
  • 正则表达式的使用
  • 函数的编写

Python数值计算工具Numpy

尽管在python基础中学了有关存储数据的列表对象,但是其无法直接参与数值运算(虽然可以使用加法和乘法,但分别代表列表元素的增加和重复)。所以必须得熟练掌握另一种非常有用的数据结构,那就是数组,通过数组可以实现各种常见的数学运算,而且基于数组的运算,也是非常高效的。
主要掌握知识点:

  • 数组的创建与操作
  • 数组的基本数学运算
  • 常用数学和统计函数
  • 线性代数求解

Python数据处理工具Pandas

通过numpy模块可以非常方便地调用各种常用的数学和统计函数。而数据处理模块Pandas可以帮助数据分析师轻松地解决数据的预处理问题,如数据类型的转换、缺失值的处理、描述性统计分析、数据的汇总等。
主要掌握知识点

  • 两种重要的数据结构,即序列和数据框
  • 如何读取外部数据(如文本文件、电子表格或数据库中的数据)
  • 数据类型转换及描述性统计分析; 字符型与日期型数据的处理
  • 常见的数据清洗方法
  • 如何应用iloc、loc、与ix完成数据子集的生成
  • 实现Excel中的透视表操作
  • 多表之间的合并与连接
  • 数据集的分组聚合操作

Python数据可视化

利用Python绘制常见的统计图形,例如条形图、饼图、直方图、折线图、散点图等,通过这些常用图形的展现,将复杂的数据简单化。这些图形的绘制可以通过matplotlib模块、pandas模块或者seaborn模块实现。
主要掌握知识点:

  • 离散型数据都有哪些可用的可视化方法
  • 数值型的单变量可用哪些图形展现
  • 多维数值之间的关系表达
  • 如何将多个图形绘制到一个画框内

上面的知识墙裂推荐利用Python进行数据分析(第二版)这本书

机器学习、深度学习

  • 机器学习(周志华)
  • 统计学习方法(李航)
  • 深度学习( 【美】伊恩·古德费洛 【加】约书亚·本吉奥 【加】亚伦·库维尔)

后记

按理来说学习是一件值得兴奋和快乐的事情,但是对于我们大部分人来说学习是为了带来更好的生活条件,这个时候学习可能就并不那么快乐,有时候甚至有些痛苦,不过凡是坚持下来的人,一定能笑到最后。