目录

Pycharm的安装即环境配置

数据分析学习

保存数据


Pycharm的安装即环境配置

pycharm数据分析教程 pycharm可以数据分析吗_pycharm数据分析教程

 选择Community(社区版),下载

双击.exe文件后,选择目录时建议改为D盘、E盘等

pycharm数据分析教程 pycharm可以数据分析吗_数据_02

在查阅一番资料后了解到,这里安装时不建议选择.py,因为后续会出现关联,打开.java文件时会用pycharm默认打开。

pycharm数据分析教程 pycharm可以数据分析吗_python_03

 接下来点击Install,出现安装界面。

如果之前没有下载有Python解释器的话,需要下载python解释器,不然pycharm只是一个虚壳。进入python官方网站: https://www.python.org/.

选择需要的python版本号,点击Download,我选择的是python3.8.6-executable可执行版。

注释:64代表64位,executable表示可执行版,下载得到exe文件进行程序安装

pycharm数据分析教程 pycharm可以数据分析吗_数据分析_04

 剩余具体安装步骤请参考网上其他博客学习,这里不做多与赘述

本次组队学习需要用到的是python中的两个库numpy和pandas进行后续的数据分析学习,pycharm安装好后由于一系列因素在pycharm中我的numpy和panadas无法进行import操作,于是下载安装了另外一款操作简单的软件anaconda

anaconda安装链接:https://www.anaconda.com/

安装好的界面如下,可以选择安装自己需要的库

pycharm数据分析教程 pycharm可以数据分析吗_数据_05

安装好以后打开JupyterLab

数据分析学习

1.pd.read_csv()和pd.read_table()的不同

pycharm数据分析教程 pycharm可以数据分析吗_pycharm数据分析教程_06

通过上图我们可以看出,用pd.read_table()加载数据时,数据的间隔变得紧凑,查阅资料后得知,这是因为它们的默认切割符号不一样,read_table默认是'\t'(也就是tab)切割数据集的;而read_csv默认是','(也就是逗号)切割数据集的;

2.使pd.read_table()达到和pd.read_csv()同样的效果

pycharm数据分析教程 pycharm可以数据分析吗_数据_07

 给出sep=‘,’即可

3. .tsv和.csv格式文件的区别及Python处理

TSV:tab separated values;即“制表符分隔值”,如:

name age
张三 15
李四 16

 CSV: comma separated values;即“逗号分隔值”,如:

name,age
张三,15
李四,16

说白了,TSV文件和CSV的文件的区别是:前者使用\t作为分隔符,后者使用,作为分隔符。

4.每1000行为一个数据模块,逐块读取

chunker = pd.read_csv('train.csv', chunksize=1000)
for chunker in df:
 print(chunker)

执行结果如下

pycharm数据分析教程 pycharm可以数据分析吗_数据_08

理解:逐块读取用于数据量大时,可以较为整体地了解数据的情况,暂时忽略其内部的具体构成,可以对数据有一个大体的判断。

5.将表头改成中文,索引改为乘客ID [对于某些英文资料,我们可以通过翻译来更直观的熟悉我们的数据]

df = pd.read_csv('train.csv', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)
df.head()

 6.观察数据

  • 查看数据的基本信息,有多少行多少列等
df.info
  • 观察前15行数据和后10行数据
df.head(15)
df.tail(10)
  • 查看数据的基本信息
    df.head(n) 查看DataFrame对象的前n行
    df.tail(n) 查看DataFrame对象的最后n行
    df.info() 查看索引、数据类型和内存信息
    df.unique() 快速查看数据列有哪些分类内容,
    df.sum() 返回所有列的求和值
    df.mean() 返回所有列的均值
    df.corr() 返回列与列之间的相关系数
    df.count() 返回每一列中的非空值的个数
    df.max() 返回每一列的最大值
    df.min 返回每一列的最小值
    df.median() 返回每一列的中位数
    df.std() 返回每一列的标准差
  • 判断数据是否为空,为空的地方返回True,其余地方返回False
df.isnull().head()

保存数据

df.to_csv('train_chinese.csv')