pycharm数据分析教程 pycharm可以数据分析吗

转载

jowvid 2023-09-29 21:03:36

文章标签 pycharm数据分析教程数据分析数据 python 文章分类 数据分析人工智能

Pycharm的安装即环境配置

数据分析学习

保存数据

Pycharm的安装即环境配置

pycharm数据分析教程 pycharm可以数据分析吗_pycharm数据分析教程

选择Community(社区版），下载

双击.exe文件后，选择目录时建议改为D盘、E盘等

pycharm数据分析教程 pycharm可以数据分析吗_数据_02

在查阅一番资料后了解到，这里安装时不建议选择.py，因为后续会出现关联，打开.java文件时会用pycharm默认打开。

pycharm数据分析教程 pycharm可以数据分析吗_python_03

接下来点击Install，出现安装界面。

如果之前没有下载有Python解释器的话，需要下载python解释器，不然pycharm只是一个虚壳。进入python官方网站： https://www.python.org/.

选择需要的python版本号，点击Download，我选择的是python3.8.6-executable可执行版。

注释：64代表64位，executable表示可执行版，下载得到exe文件进行程序安装

pycharm数据分析教程 pycharm可以数据分析吗_数据分析_04

剩余具体安装步骤请参考网上其他博客学习，这里不做多与赘述

本次组队学习需要用到的是python中的两个库numpy和pandas进行后续的数据分析学习，pycharm安装好后由于一系列因素在pycharm中我的numpy和panadas无法进行import操作，于是下载安装了另外一款操作简单的软件anaconda

anaconda安装链接：https://www.anaconda.com/

安装好的界面如下，可以选择安装自己需要的库

pycharm数据分析教程 pycharm可以数据分析吗_数据_05

安装好以后打开JupyterLab

数据分析学习

1.pd.read_csv()和pd.read_table()的不同

pycharm数据分析教程 pycharm可以数据分析吗_pycharm数据分析教程_06

通过上图我们可以看出，用pd.read_table()加载数据时，数据的间隔变得紧凑，查阅资料后得知，这是因为它们的默认切割符号不一样,read_table默认是'\t'(也就是tab)切割数据集的;而read_csv默认是','(也就是逗号)切割数据集的;

2.使pd.read_table()达到和pd.read_csv()同样的效果

pycharm数据分析教程 pycharm可以数据分析吗_数据_07

给出sep=‘，’即可

3. .tsv和.csv格式文件的区别及Python处理

TSV：tab separated values；即“制表符分隔值”，如：

name age
张三 15
李四 16

CSV： comma separated values；即“逗号分隔值”，如：

name,age
张三,15
李四,16

说白了，TSV文件和CSV的文件的区别是：前者使用\t作为分隔符，后者使用,作为分隔符。

4.每1000行为一个数据模块，逐块读取

chunker = pd.read_csv('train.csv', chunksize=1000)
for chunker in df:
 print(chunker)

执行结果如下

pycharm数据分析教程 pycharm可以数据分析吗_数据_08

理解：逐块读取用于数据量大时，可以较为整体地了解数据的情况，暂时忽略其内部的具体构成，可以对数据有一个大体的判断。

5.将表头改成中文，索引改为乘客ID [对于某些英文资料，我们可以通过翻译来更直观的熟悉我们的数据]

df = pd.read_csv('train.csv', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)
df.head()

6.观察数据

查看数据的基本信息，有多少行多少列等

df.info

观察前15行数据和后10行数据

df.head(15)
df.tail(10)

查看数据的基本信息
df.head(n) 查看DataFrame对象的前n行
df.tail(n) 查看DataFrame对象的最后n行
df.info() 查看索引、数据类型和内存信息
df.unique() 快速查看数据列有哪些分类内容，
df.sum() 返回所有列的求和值
df.mean() 返回所有列的均值
df.corr() 返回列与列之间的相关系数
df.count() 返回每一列中的非空值的个数
df.max() 返回每一列的最大值
df.min 返回每一列的最小值
df.median() 返回每一列的中位数
df.std() 返回每一列的标准差
判断数据是否为空，为空的地方返回True，其余地方返回False