文章目录

  • 数据分析入门编程语言选择(Python)
  • 编辑器选择(JupyterNotebook)
  • 如何找项目练手?
  • 你可能需要的数据集?


数据分析入门编程语言选择(Python)

Python 现如今已成为数据分析和数据科学使用上的标准语言和标准平台之一。作为一个新手小白,该如何快速入门 Python 数据分析呢?

数据分析一般工作流程如下:

  1. 数据采集
  2. 数据存储与提取
  3. 数据清洁及预处理
  4. 数据建模与分析
  5. 数据可视化

谈谈数据采集数据建模与分析

数据采集:这部分的重点知识内容是网络爬虫。我们必须掌握的技能有Python 基础语法、如何编写 Python 爬虫。掌握如何使用成熟的 Python 库(如urllib、BeautifulSoup、requests、scrapy)实现网络爬虫。大部分的网站都有自己的反爬机制,所以还需要学习一些技巧去应对不同网站的反爬策略。主要包括:正则表达式、模拟用户登录、使用代理、设置爬取频率、使用cookie信息等等。
初学者本身就很难,搞这些不就难上难了?文末送你的数据集够你“挥霍”的了(能学会爬虫最好)。

数据建模与分析:数据分析最最最最最最核心的部分,这部分已经不是单纯的处理数据了,需要掌握一定的数学概率论知识和机器学习相关内容。概率论及统计学知识:基本统计量(均值、中位数、众数等)、描述性统计量(方差、标准差等)、统计知识(总体和样本、参数和统计量等)、概率分布与假设检验(各种分布、假设检验流程)、条件概率、贝叶斯等其他概率论知识。机器学习:掌握常用的机器学习分类、回归、聚类算法和原理,了解特征工程基础、调参方法以及 Python 数据分析包scipy、numpy、scikit-learn 等。并且能够选择一种算法模型对数据进行相应的分析,并得出分析结论。
推荐书籍
李航 统计学习方法(第2版)
可以买纸质书学习,需要电子书可以私信我。

编辑器选择(JupyterNotebook)

Jupyter Notebook(此前称为IPython Notebook),支持实时代码、数学方程、可视化和 Markdown,其用途包括数据清理和转换、数值模拟、统计建模、机器学习等等。目前,数据挖掘领域中最热门的比赛 Kaggle 里资料都是Jupyter 格式。对于机器学习新手或未来可能会涉及到的机器学习的朋友来说,学会使用 Jupyter Notebook 非常重要。

最最重要的是!!代码是被写入独立的单元中并被单独执行的,这允许用户测试项目中的特定代码块,而无需从脚本的开始执行代码,如下:

数据分析一定要python吗 数据分析需要爬虫吗_数据挖掘


Anaconda安装包

如何找项目练手?

强烈推荐Kaggle,Kaggle是由联合创始人、首席执行官安东尼·高德布卢姆(Anthony Goldbloom)2010年在墨尔本创立的,主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。该平台已经吸引了80万名数据科学家的关注。
新手入门项目首推Titanic后续我会贴出排名top 2%的思路和源码。
如果因为某些原因无法注册或登陆Kaggle官网可以私信我进行交流。

你可能需要的数据集?

首先是Kaggle数据集(官网下载速度感人,很浪费时间)

Kaggle数据集其中包括最经典的Titanic生存预测的数据集。

数据分析一定要python吗 数据分析需要爬虫吗_数据挖掘_02


数据分析一定要python吗 数据分析需要爬虫吗_python_03


数据分析一定要python吗 数据分析需要爬虫吗_数据分析_04


这些数据集我都还没来得及上传,有需要的小伙伴直接私信我就好,不玩任何套路!!

求关注求赞。