提取多列数据 python 提取多列数据jupyter

转载

mob6454cc641ffd 2023-09-16 00:54:05

文章标签 提取多列数据 python 数据集数据 3d 文章分类 Python 后端开发

首先说明，这个内容不能说完全原创，结合了其他学习平台学习的思路，加上一点自己的理解。就是记录下来方便自己之后查阅。

目录
**1. 数据采集
2. 认识数据集 **

数据集有csv json
xlsx等格式，可以储存在本地或者服务器上。在分析数据之前需要将数据集导入到Jupyter中。本次利用Pandas库（能够规范数据框架）对csv格式的汽车数据集进行试验。

1.1数据库引入和查看

#数据库引入
    import pandas as pd
    #引用函数pd.read_csv读取csv文件，命名为df
    df = pd.read_csv("/resources/jupyter/DA001/DA001-001/imports-85.data", header = None)
    #查看前10行、后10行数据，head函数
    df.head(10)
    df.tail(10)

![输出](

process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl8zODE2OTY1NQ==,size_16,color_FFFFFF,t_70)

1.2为数据集添加标题
从上面图可知，数据有26列，标题从最后一列开始赋值，添加一个标题就整体往前移动一格。所以一般情况下要写26个标题。（此处因为不想打字所以在后面用数字代替。）
在不进行单独赋值的前提下，pandas为数据列赋值为0，1，2…，记在df.columns中。因此直接用编辑好的表头（headers）进行替换即可。

#现将编辑好的标题存在headers（=[" ", , ]）中
    headers = ["symboling",“normalizes-losses","make","fuel-type","aspiration","6","7","8","9","10","11","12","13","14","15","16","17","18","19","20","21","22","23","24","25","26"]
    #将标题替换掉pandas自带的0，1，2，3，4，5...的标题
    df.columns = headers
    df.head(10)#查看，默认5行

![前行的表头已经替换好](
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl8zODE2OTY1NQ==,size_16,color_FFFFFF,t_70)

1.3数据的保存
用pandas里面的dataframe.to_cav()函数进行保存，括号填写本地路径以及文件名称。其中dataframe是之前引入数据时保存的名称。在这里用的是df

df.to_csv("automobile.csv")

在这里引用这个博客的方法查询默认保存路径 Jupyter notebook文件默认存储路径以及更改方法

运行结果如下

提取多列数据 python 提取多列数据jupyter_数据

其他类型文件的保存语法

![无](

process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl8zODE2OTY1NQ==,size_16,color_FFFFFF,t_70)

2.1数据类型
数据本身有object float int bool
datetime64，有些数据集还会在后面显示64，如float64。数据类型可以通过dateframe.dtypes进行查询.

df.dtypes

2.2对数据类型进行计数和汇总
dataframe.describe()

df.describe(include = "all")

这个函数返回每列数字类型的数目、平均值、标准差、最小值、最大值、缺失值，第25%、50%、75%等，输出如下：
![类型不可计算的显示为NaN](
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl8zODE2OTY1NQ==,size_16,color_FFFFFF,t_70)

2.3只对其中的几列进行查看
语法为dataframe[[‘column name 1’, ‘…2’, ‘…3’]]

df[['6', '7','8']]

输出（直截取前几行）

提取多列数据 python 提取多列数据jupyter_数据集_02

然后再通过引用describe函数查看这几列的信息

df[['6', '7', '8']].describe(include = "all")

![显示这三列的统计结果。由于数据类型的限制下面几个都是NaN的状态，因此不显示](https://img-
blog.csdnimg.cn/2020021116472774.JPG)
第二个查询列的方法是用dataframe.info函数，它可以展示数据列的前30行和后30行。但是我不太喜欢这个方式，标题和数字对不上，不如之间用notebook++看。
![在这里插入图片描述](
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl8zODE2OTY1NQ==,size_16,color_FFFFFF,t_70)

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。