1005-Pandas学习报告

Anaconda安装

Anaconda是一个基于Python的平台,管理主要的数据科学包,包括panda、scikit-learn、SciPy、NumPy和谷歌的机器学习平台TensorFlow。它与conda(类似于pip的安装工具)、Anaconda导航器(用于GUI体验)和spyder(用于IDE)一起打包。

  1. 官网下载(https://www.anaconda.com/products/individual)
  2. 确认安装:命令行输入conda --version
  3. 查看已有包conda list
  4. 若包内没有Pandas,需要安装conda install pandas
Spyder使用

Anaconda可在PyCharm,Spyder,Notebook上面运行,个人在三者都使用后在这里选择Spyder。
Spyder是Anaconda的默认IDE,对于Python中的标准和数据科学项目都非常强大。Spyder IDE有一个集成的IPython笔记本、一个代码编辑器窗口和控制台窗口。Spyder还包括标准的调试功能和一个变量资源管理器,当事情没有完全按计划进行时,它可以提供帮助。
注意:Spyder有在线IDE,但响应时间较慢,个人建议下载PC端

  1. 官网下载(https://www.spyder-ide.org/)或在anaconda3\Script\spyder.exe直接运行
  2. 下载Kite(https://www.kite.com/download/?utm_expid=.4WZOeMZyQWOMMg6dYbggTw.0&utm_referrer=)
使用Pandas合并数据集
1. pd.concat()

参数 pd.concat(objs, axis=0, join=‘outer’, join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, copy=True)

  • objs 需要连接的对象,eg [df1, df2]
  • axis axis = 0, 表示在水平方向(row)进行连接 axis = 1, 表示在垂直方向(column)进行连接
  • join outer, 表示index全部需要; inner,表示只取index重合的部分
  • join_axes 传入需要保留的index
  • ignore_index 忽略需要连接的frame本身的index。当原本的index没有特别意义的时候可以使用
  • keys 可以给每个需要连接的df一个label
    横向连接,axis = 0
    纵向连接,axis = 1
2. append()

DataFrame.append(other, ignore_index=False, verify_integrity=False, sort=None)
功能说明:向dataframe对象中添加新的行,如果添加的列名不在dataframe对象中,将会被当作新的列进行添加

  • other:DataFrame、series、dict、list这样的数据结构
  • ignore_index:默认值为False,如果为True则不使用index标签
  • verify_integrity :默认值为False,如果为True当创建相同的index时会抛出ValueError的异常
  • sort:boolean,默认是None,该属性在pandas的0.23.0的版本才存在。

append添加series:
如果不添加ignore_index=True,会报错提示TypeError: Can only append a Series if ignore_index=True or if the Series has a name.
当dataframe使用append方法添加series的时候,必须要设置name,设置name名称将会作为index的name。

append添加list:
如果list是一维的,则是以列的形式来进行添加,如果list是二维的则是以行的形式进行添加的,如果是三维的则只添加一个值
注意:在多次使用append方法追加数据的时候,可能会出现相同的index
如果想要添加的index不出现重复的情况,可以通过设置ignore_index=True来避免