数据分析介绍
数据分析的基本概念
- 用适当的统计分析方法对数据收集来的大量数据进行分析
- 提取有用信息和形成结论
- 对数据加以详细研究和概括总结的过程
数据分析的流程
- 明确目的
- 准备数据
- 数据解析
- 分析数据
- 获得结论
- 成果可视化
数据分析和数据挖掘的相似之处
- 数据挖掘和数据分析都是对数据进行分析、处理等操作,从而得到有价值的知识
数据分析与数据挖掘的区别
- 在应用工具上,数据分析更多的是借助现有的分析工具进行;而数据挖掘一般需要通过编程来实现。
- 在行业知识方面,数据分析要求对所从事的行业有比较深的了解,更多的是将数据与业务紧密结合起来;而数据挖掘不需要有太多的行业知识,更专注与技术层面。
Jupyter使用
Jupyter介绍
- Jupyter Notebooks 是一款开源的网络应用,我们可以将其用于创建和共享代码与文档。
- 其提供了一个环境,你无需离开这个环境,就可以在其中编写你的代码、运行代码、查看输出、可视化数据并查看结果。因此,这是一款可执行端到端的数据科学工作流程的便捷工具,其中包括数据清理、统计建模、构建和训练机器学习模型、可视化数据等等。
Jupyter Notebooks特点
- 基于web在线编辑器
- 可交互式
- .ipynb文件分享
- 支持markdown
Jupyter官网
Jupyter安装
- 首先安装好Python(建议3.6-3.7版本)
- 安装命令:
pip install Jupyter
Jupyter使用
- 首先需要创建单独项目文件夹(建议名称不要有中文)
-
windows+R
输入cmd
或cmder
进入终端 - 切换到该文件夹路径下
- 打开命令输入:
jupyter notebook
- 当第一次创建的时候会是这样
- 快捷键的使用
- 运行:
Ctrl+Enter
- Esc —— 命令模式
- Enter —— 编辑模式
进入命令模式后的一些常用方法
- 字母
A
—— 在活跃单元之上插入一个新单元 - 字母
B
—— 在活跃单元之下插入一个新单元 - 连续按两次字母
D
—— 可以删除单元 - 字母
Z
—— 撤销被删除的单元 - 字母
Y
—— 会将当前活跃的单元变成一个代码单元 - 按住
shift + 上箭头或者下箭头
可以选择多单元。在多选模式时,按住Shift + M
可合并你的选择
进入命令模式或输入字母H
查看源代码小技巧
在Jupyter中一个英文状态下的问号代表着使用查看对象的概要信息
在Jupyter中一个英文状态下的两个问号代表着使用查看源代码
文件操作
文件操作的介绍
在实际操作中,通过采集本地数据进行数据分析,那么就需要学会Python去对本地进行读取与写入等操作
比如:txt文件,Json文件,csv文件,excel文件等
Python操作txt文件open( file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None, )
- file :为文件本身
- mode : 操作文件模式----详情看源码
- encoding : 指定文件编码
- newline : 新的一行
with open('Students.txt',mode='r')as f:
read = f.read()
fier
Python操作json文件
Json是一种使用广泛的轻量级数据格式,Python标准中的json模块中提供了JSON数据的处理功能
由于JSON与Python中的字典格式非常像,所以Python中的json模块也相当于用来使json与字典转换。
但要注意的是,json中的数据必须使用双引号。
Python操作csv文件
CSV即Comma Separate Values,有时也称为字符分隔值,因为分隔字符也可以不是逗号,其文件以纯文本
存储表格(数字和文本)。经常用来作为不同程序之间的数据交互格式。
import csv
with open('demo.csv', 'w', encoding='utf-8')as f:
csw_writer = csv.writer(f)
csw_writer.writerow(["A", "B", "C"])
Python操作excel文件
官网:https://openpyxl.readthedocs.io/en/stable/ 安装:pip install openyxl
在Python中,有很多第三方模块用来操作excel,比如说:xlwt,xlrd,openpyxl等。
注意:openpyxl只支持2010版本以上的xlsx文件
from openpyxl import load_workbook
wb = load_workbook("demo03.xlsx") # 打开工作簿
ws = wb.active # 打开工作表
# 单元格的值
tuple(ws.rows)
for row in ws.rows: # 循环出每一行
for cell in row: # 循环每一个单元格
print(cell.value)