安装anaconda3并使用jupyter notebook
原创
©著作权归作者所有:来自51CTO博客作者wx59658a994b151的原创作品,请联系作者获取转载授权,否则将追究法律责任
一、安装与使用
下载地址:
https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.1.0-Windows-x86_64.exe 下载完成后以管理员身份打开
除了修改安装位置外,其余点下一步即可
安装完成后,在windows菜单栏可以看到如下
点击打开Jupyter Notebook
在黑窗口简短执行后,自动跳转默认浏览器
打开后选择New,新建一个文件夹
选中新建的文件夹,rename重命名
重命名后打开文件夹,选中upload上传数据集
上传完成后,New Python3
打开一个可编辑的,类似于zeepeelin的界面,如图所示
二、Jupyter notebook的具体操作
df.shape
df.head()
df.columns
df.indexs
df.info()
df.duplicated().sum()
df.duplicated()
df.drop([ 'class_strong', 'delivery_place'],axis=1,inplace=True)
df['sales']=df['pro_sales_num']*df['sale_price']
df.drop_duplicates(inplace=True)
df.dropna(inplace=True)
df['pro_type'].value_counts()
df['pro_sales_num'].groupby(df['pro_type']).sum().sort_values(ascending=False)
df.groupby('pro_type')["pro_sales_num"].sum()
导入python的数据分析库
#导入数据分析三剑客
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
#导入数据
datas=pd.read_csv("data.csv",encoding='utf-8')
#查看数据
df.head()
#查看数据的标签
df.columns
数据检查
#如何查看一个数据集的行数和列数
df.shape
#检查缺失值得仿佛
df.info()
#检查重复值得方法
df.duplicated().sum()
df.duplicated()
#处理缺失值的方法
df.dropna(inplace=True)
#处理重复值的方法
df.drop_duplicates(inplace=True)
#删除列的方法
df.drop([ 'class_strong', 'delivery_place'],axis=1,inplace=True)
#添加列的方法
df['sales']=df['pro_sales_num']*df['sale_price']
常用方法汇总
#来计算每个值出现的次数
df['pro_type'].value_counts()
#数据进行分组
df['pro_sales_num'].groupby(df['pro_type']).sum()
df.groupby('pro_type')['sales'].sum()
#排序
df.groupby('pro_type')['pro_sales_num'].sum().sort_values(ascending=False)
#条件过滤
df_notebook=df[df['class_small']=='笔记本']
df_notebook.query("class_small=='笔记本'")
#通过idxmax可以获取指定列最大值所在行的位置信息
index=df_notebook['pro_sales_num'].idxmax()
#根据index取得某一列的值
df_notebook['pro_name'][index]
#根据index取得一整行
df_notebook.loc[[index]]
绘图方式
#绘制直方图
df_notebook['sale_price'].plot("hist")
plt.show()
#绘制散点图
df_laptop.plot(x='sale_price',y='pro_sales_num',kind='scatter')plt.show()