1 前言
Python拥有著名的重量级科学计算库Numpy和数据分析库Pandas,他们在工业界拥有着举足轻重的地位。但今天我们要介绍的是一个轻量级的数据分析库DaPy,其致力于节约数据科学家对数据集分析过程中的时间和成本,提高数据科学家的工作效率。
2 丰富且专业的功能
数据分析的过程大致为:数据载入,描述性统计,数据清洗,推断性统计,模型开发与调试。
在数据载入方面,DaPy的数据结构清晰简洁利于数据科学家 "感受" 数据;函数功能丰富且高效,节约数据科学家对于复杂数据的处理时间。在描述性统计方面,DaPy已经提供了全面的计算公式,可以帮助数据科学家快速了解数据特征。
在未来,DaPy将添加更多数据清洗、推断性统计方面的函数;实现更多数学模型建立过程中使用的公式;甚至内置一些简易的机器学习模型(多层感知机、支持向量机等)。DaPy按照数据分析的流程,正在不断地完善。
3 特性
3.1 优异的性能
通过DaPy加载并且遍历整个数据集(1,815,008条)所花费的时间,大约只有Numpy的30%和Pandas的6%;而内存占用仅仅为Numpy的20%和Pandas的8%。
3.2 精炼的语法
import DaPy as dp
datas = dp.DataSet('ExamplesDB.csv') # 初始化数据集
datas.readframe() # 数据框方式读取数据
datas.readcol() # 按列读取数据
datas.titles # 查阅数据集变量名
datas[title] # 提取数据集某一列变量
datas.tocsv('MyDB.csv') # 将当前数据集保存至文件
dp.Statistic(data) # 返回数据的数字特征
dp.CountDistribution(data) # 返回数据的分布直方图参数
dp.CountQuantiles(data) # 返回数据的分位数
dp.cor(data1, data2) # 返回两组数据的相关性复制代码
import DaPy as dp
datas = dp.DataSet('ExamplesDB.csv') # 初始化数据集
datas.readframe() # 数据框方式读取数据
datas.readcol() # 按列读取数据
datas.titles # 查阅数据集变量名
datas[title] # 提取数据集某一列变量
datas.tocsv('MyDB.csv') # 将当前数据集保存至文件
dp.Statistic(data) # 返回数据的数字特征
dp.CountDistribution(data) # 返回数据的分布直方图参数
dp.CountQuantiles(data) # 返回数据的分位数
dp.cor(data1, data2) # 返回两组数据的相关性复制代码
4 最新版本功能
<1> 支持从文件中以“数据表导入”,“数据框导入”和“按列导入”方式读取数据集;
<2> 支持快速地读取数据集中的记录;
<3> 支持快速地将数据集写入csv文件;
<4> 支持快速计算一组数据的数字特征,多角度统计数据的分布情况;
详细的使用指南请查询官方网站:https://github.com/JacksonWuxs/DaPy