用Python进行数据分析，就要掌握什么技术？

原创

黑马程序员 2023-01-23 08:39:21 ©著作权

文章标签 数据分析数据挖掘 python Python 数据 文章分类 运维

©著作权归作者所有：来自51CTO博客作者黑马程序员的原创作品，请联系作者获取转载授权，否则将追究法律责任

文章目录

一、消除误解
二、数据分析之Python基础
三、数据分析之书籍推荐

数据分析类书籍推荐：
产品思维类：

四、【重要】有关数据分析的Python库

4.1 NumPy
4.2 Pandas
4.3 Matplotlib
4.4 Scipy
4.5 StatsModels

四、总结

本文是针对数据分析写的Python教程，文章内容针对以下初学者遇到的问题：

需要学多久的Python？

需要学到什么程度的Python？

学Python的最优课程和书籍有什么？

为了处理数据集，我需要精通Python吗？

在开始正式的分享之前我们先来看一下，数据分析的工作流程：

用Python进行数据分析，就要掌握什么技术？_Python

一、消除误解

很多人因为想做数据分析，从而开始了python的编程学习，每天沉迷于代码和书籍之间。但是最后发现学到的只是python用于软件的开发，并非是数据分析。

Python实际针对数据分析的学习是库，用库来解决一系列的数据分析问题。所以建议就是数据分析方向并没有必要精通Pythn。

实际的学习Python过程就是：

掌握Python基础；

学习Numpy；

学习Pandas

学习Matplib

建议是掌握Python基础之后按照上述顺序进行库的学习，很多人会还没学好一个，就进入下一个从而导致学习失败。

二、数据分析之Python基础

用Python进行数据分析，就要掌握什么技术？_数据_02

至于Python基础需要掌握什么，请大家对照图片的基础和链接当中的课程进行规划和学习，建议Python基础如果你每天学习时间比较多，超过3小时的话，学习时长为20天内之内。少于三小时按照进度以此类推。

其次就是机器学习相关知识大家也是要掌握的，不需要你明白推导公式是怎么推的，但是原理要知道。

三、数据分析之书籍推荐

提醒一下，不要买数据分析的工具书，所有工具书的内容都可以百度一下解决，一般来说工具书的内容也比较浅显。建议大家选择实战类书籍，毕竟数据分析也离不开实战。

数据分析类书籍推荐：

《增长》《社会调查设计与数据分析》（这本墙裂推荐，理论+实际，让我们有效学习）《深入浅出数据分析》

产品思维类：

建议大家听《梁宁的产品课》

本文上述内容均适合0-3年的数据分析师，如果你想进阶的话，还要学好数学、统计学、数据挖掘。回答这篇内容的时候，也看了很多人整理的内容，看到一份还不错比较全面的分享给大家：

用Python进行数据分析，就要掌握什么技术？_数据_03

图片来源于CSDN，傅一平

书籍和知识体系都分析完了，最后身为数据分析师的你们，一定要知道实战真的很重要。但是大家基本都苦于，哪找数据去？哪找实战去？我们可以去打比赛，打比赛也可以让我们对数据有一定的理解，更深入到业务。平台：Kaggle、阿里天池、DataFountain；

四、【重要】有关数据分析的Python库

4.1 NumPy

这是最常用的数据分析库了，准确来说是一个数学计算库，包括我们刚刚提到的Pandas也是依赖于Numpy的。

我们需要学习的内容是了解NumPy

知道数组的属性、形状和类型

应用Numpy实现数组的基本操作

应用随机数组的创建实现正态分布应用

应用Numpy实现数组的逻辑运算

应用Numpy实现数组的统计运算

应用Numpy实现数组之间的运算

4.2 Pandas

这是为了数据建模分析而生的工具库，内含许多的数据模型，也有很多其他库的优势。学习顺序就是先学NumPy在来学Pandas，需要学习知识点如下：

了解Numpy与Pandas的不同

说明Pandas的Series与Dataframe两种结构的区别

了解Pandas的MultiIndex与panel结构

应用Pandas实现基本数据操作

应用Pandas实现数据的合并

应用crosstab和pivot_table实现交叉表与透视表

应用groupby和聚合函数实现数据的分组与聚合

了解Pandas的plot画图功能

应用Pandas实现数据的读取和存储

4.3 Matplotlib

刚刚提到了一些，他是一个2D绘图库，一堆数据摆在面前的时候，我们可以将它便捷转化成图形。本文中提到的前三个库，就是数据分析Python库中的三驾马车。需要学习内容是：

应用Matplotlib的基本功能实现图形显示

应用Matplotlib实现多图显示

应用Matplotlib实现不同画图种类

大家只要记住可视化是在整个数据挖掘中的关键辅助工具就可以了，所以要学习怎么来画图。

4.4 Scipy

Scipy也是依赖Numpy的，Scipy是一个科学计算工具库。

4.5 StatsModels

StatsModels 包含了许多的统计模型，线性模型、广义线性模型、方差分析、时间序列（Pandas 也可以做，因为 StatsModels 又依赖于 Pandas）和线性混合效用模型等，在统计方面有其独特的优势。

四、总结

以上基本上就是数据分析方向Python学习的内容。对于学习步骤也就是先Numpy或者是Matplotlib，第二学Pandas。

在书《大数据时代》中，提到了这样一种情况：玛丽莎·迈尔在任谷歌高管期间，有时会要求员工测试41种蓝色的阴影效果，哪种被人们使用最频繁从而决定网页工具栏的颜色。这是陷入“数据之上”的误区，这样的数据是毫无意义，访客能不能看出细微的差别不说，几乎没有人会因为阴影效果的不同而决定访问/不访问这一网页。

所以大家还要多多累积经验，以上内容足以学习之后，基本就成为了又数据分析思维的分析师，但是知识和实战一定是是有差距的。我们可以思考的业务场景是：

百度首页好物推荐，让你来设计指标衡量这个功能的话，你要怎么做？

一个APP，从来没有用户的行为分析，那么要开始进行数据埋点，你会怎么设计？

知乎要大力推广视频功能，基于此你如何分析？

各类音乐软件都会有每日歌曲和电台推荐，你怎么设计指标衡量功能？

上一篇：Vue3.0 简介以及基本使用

下一篇：初学编程，思路都明白就是写不出来代码怎么办？

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯