python根据索引创建变量 python索引数据

转载

mob6454cc6c1f4a 2023-09-25 11:11:07

文章标签 python根据索引创建变量 python的pandas行数和索引数据数据集多列 文章分类 Python 后端开发

本文将以IMDB电影评分数据集为例，展示Python中常用的数据切片和索引的操作。

包括：l 数据框切片
l Loc方法
l Iloc方法
首先导入Pandas和Numpy,
import pandas as pd;
import numpy as np;
导入使用的数据集：IMBD电影评分数据集，并对数据进行基础的了解：
path='D:\movies_csv.csv'
movies=pd.read_csv(path)
movies.head(5)数据形态
movies.shape
IMDB数据集包含了979条电影的信息，包括电影名称、得分、内容分级、影片类型、时长和演员列表六项信息。
准备好数据集后，开始正文
数据框筛选与切片
筛选单列时，将需要提取的列名写在数据集后的方括号里，并用单引号或双引号括起来即可
movies['title']
如何需要提取多列，只需要将需要提取的多列名称用方括号写在一个列表里即可
movies[['title','content_rating']]
在对行进行提取时，使用索引号进行提取：
movies[1:10] #切出第2条到第9条的9条记录，索引号从0开始，不包含尾部
mydata[:] #默认提取所有的数据记录
数据框也可以同时对行和列进行切片，将行列分别写在方括号内即可
movies[1:10][['title','genre']]
在实际操作中，我们也有按照条件筛选数据的需求：
movies[(movies['content_rating']=="R")]#筛选所有分级为R的电影
movies[(movies['content_rating']=="R")&(movies['star_rating']>=8)][['title','duration','actors_list']]
#筛选所有分级为R，并且评分高于8分的电影的名称，时长和演员名单
标签索引
除去数据框简单切片选取之外，在Python中能够完成基于索引的数据筛选。
movies.loc[2] #按索引提取单行的数值
movies.loc[0:3] #按索引提取区域行数值
movies.loc[1:5,["title","duration"]] #行列同时筛选
同样，我们也有条件筛选的需求，语法和数据框选取基本一致。
movies.loc[(movies['content_rating']=="R")]#筛选所有分级为R的电影
movies.loc[(movies['content_rating']=="R")&(movies['star_rating']>=8)][['title','duration','actors_list']]
#筛选所有分级为R，并且评分高于8分的电影的名称，时长和演员名单
位置索引
位置索引使用的iloc，与loc不同之处在于loc使用的是数据的标签索引，即数据的编号，而iloc使用的是数据的位置。如果将原数据随机打乱，在打乱前和打乱后使用loc选取出的数据是不会变化的，因为每个sample的编号并不会随位置而变化，但是使用iloc选取的数据会发生变化，因为iloc是基于位置选取数据。
iloc的语法与loc基本一样，在这里不再赘述。

以上就是在数据分析中常见的数据选取与切片的方法，希望能帮到新入门的同学~

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。