数据分析介绍

数据分析的基本概念

  • 用适当的统计分析方法对数据收集来的大量数据进行分析
  • 提取有用信息和形成结论
  • 对数据加以详细研究和概括总结的过程

数据分析的流程

  1. 明确目的
  2. 准备数据
  3. 数据解析
  4. 分析数据
  5. 获得结论
  6. 成果可视化

数据分析和数据挖掘的相似之处

  • 数据挖掘和数据分析都是对数据进行分析、处理等操作,从而得到有价值的知识

数据分析与数据挖掘的区别

  • 在应用工具上,数据分析更多的是借助现有的分析工具进行;而数据挖掘一般需要通过编程来实现。
  • 在行业知识方面,数据分析要求对所从事的行业有比较深的了解,更多的是将数据与业务紧密结合起来;而数据挖掘不需要有太多的行业知识,更专注与技术层面。

Jupyter使用

Jupyter介绍

  • Jupyter Notebooks 是一款开源的网络应用,我们可以将其用于创建和共享代码与文档。
  • 其提供了一个环境,你无需离开这个环境,就可以在其中编写你的代码、运行代码、查看输出、可视化数据并查看结果。因此,这是一款可执行端到端的数据科学工作流程的便捷工具,其中包括数据清理、统计建模、构建和训练机器学习模型、可视化数据等等。

Jupyter Notebooks特点

  • 基于web在线编辑器
  • 可交互式
  • .ipynb文件分享
  • 支持markdown

Jupyter官网

Jupyter安装

  • 首先安装好Python(建议3.6-3.7版本)
  • 安装命令:pip install Jupyter

Jupyter使用

  • 首先需要创建单独项目文件夹(建议名称不要有中文)
  • windows+R输入cmdcmder进入终端
  • 切换到该文件夹路径下
  • 打开命令输入:jupyter notebook
  • 数据分析师社会环境分析怎么写 数据分析环境的理解_python

  • 当第一次创建的时候会是这样
  • 数据分析师社会环境分析怎么写 数据分析环境的理解_编程语言_02

  • 快捷键的使用
  • 运行:Ctrl+Enter
  • Esc —— 命令模式
  • Enter —— 编辑模式

进入命令模式后的一些常用方法

  • 字母A —— 在活跃单元之上插入一个新单元
  • 字母B —— 在活跃单元之下插入一个新单元
  • 连续按两次字母D —— 可以删除单元
  • 字母Z —— 撤销被删除的单元
  • 字母Y —— 会将当前活跃的单元变成一个代码单元
  • 按住shift + 上箭头或者下箭头可以选择多单元。在多选模式时,按住Shift + M可合并你的选择

进入命令模式或输入字母H

数据分析师社会环境分析怎么写 数据分析环境的理解_编程语言_03


数据分析师社会环境分析怎么写 数据分析环境的理解_数据分析师社会环境分析怎么写_04

数据分析师社会环境分析怎么写 数据分析环境的理解_Python_05

查看源代码小技巧

在Jupyter中一个英文状态下的问号代表着使用查看对象的概要信息

数据分析师社会环境分析怎么写 数据分析环境的理解_Python_06

在Jupyter中一个英文状态下的两个问号代表着使用查看源代码

数据分析师社会环境分析怎么写 数据分析环境的理解_编程语言_07

文件操作

文件操作的介绍

在实际操作中,通过采集本地数据进行数据分析,那么就需要学会Python去对本地进行读取与写入等操作
比如:txt文件,Json文件,csv文件,excel文件等

Python操作txt文件
open( file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None, )

  • file :为文件本身
  • mode : 操作文件模式----详情看源码
  • encoding : 指定文件编码
  • newline : 新的一行
with open('Students.txt',mode='r')as f:
    read = f.read()
    fier

Python操作json文件

Json是一种使用广泛的轻量级数据格式,Python标准中的json模块中提供了JSON数据的处理功能
由于JSON与Python中的字典格式非常像,所以Python中的json模块也相当于用来使json与字典转换。
但要注意的是,json中的数据必须使用双引号。

数据分析师社会环境分析怎么写 数据分析环境的理解_编程语言_08


数据分析师社会环境分析怎么写 数据分析环境的理解_python_09


数据分析师社会环境分析怎么写 数据分析环境的理解_python_10


数据分析师社会环境分析怎么写 数据分析环境的理解_Python_11

Python操作csv文件

CSV即Comma Separate Values,有时也称为字符分隔值,因为分隔字符也可以不是逗号,其文件以纯文本
存储表格(数字和文本)。经常用来作为不同程序之间的数据交互格式。
import csv
with open('demo.csv', 'w', encoding='utf-8')as f:
    csw_writer = csv.writer(f)
    csw_writer.writerow(["A", "B", "C"])

Python操作excel文件
官网:https://openpyxl.readthedocs.io/en/stable/ 安装:pip install openyxl

在Python中,有很多第三方模块用来操作excel,比如说:xlwt,xlrd,openpyxl等。
注意:openpyxl只支持2010版本以上的xlsx文件
from openpyxl import load_workbook
wb = load_workbook("demo03.xlsx")  # 打开工作簿
ws = wb.active  # 打开工作表
# 单元格的值
tuple(ws.rows)
for row in ws.rows:  # 循环出每一行
    for cell in row: # 循环每一个单元格
        print(cell.value)