1 前言

Python拥有著名的重量级科学计算库Numpy和数据分析库Pandas,他们在工业界拥有着举足轻重的地位。但今天我们要介绍的是一个轻量级的数据分析库DaPy,其致力于节约数据科学家对数据集分析过程中的时间和成本,提高数据科学家的工作效率。

2 丰富且专业的功能

数据分析的过程大致为:数据载入,描述性统计,数据清洗,推断性统计,模型开发与调试。

在数据载入方面,DaPy的数据结构清晰简洁利于数据科学家 "感受" 数据;函数功能丰富且高效,节约数据科学家对于复杂数据的处理时间。在描述性统计方面,DaPy已经提供了全面的计算公式,可以帮助数据科学家快速了解数据特征。

在未来,DaPy将添加更多数据清洗、推断性统计方面的函数;实现更多数学模型建立过程中使用的公式;甚至内置一些简易的机器学习模型(多层感知机、支持向量机等)。DaPy按照数据分析的流程,正在不断地完善。

3 特性

3.1 优异的性能                      

通过DaPy加载并且遍历整个数据集(1,815,008条)所花费的时间,大约只有Numpy的30%和Pandas的6%;而内存占用仅仅为Numpy的20%和Pandas的8%。

3.2 精炼的语法

import DaPy as dp

datas = dp.DataSet('ExamplesDB.csv') # 初始化数据集

datas.readframe() # 数据框方式读取数据

datas.readcol() # 按列读取数据

datas.titles # 查阅数据集变量名

datas[title] # 提取数据集某一列变量

datas.tocsv('MyDB.csv') # 将当前数据集保存至文件

dp.Statistic(data) # 返回数据的数字特征

dp.CountDistribution(data) # 返回数据的分布直方图参数

dp.CountQuantiles(data) # 返回数据的分位数

dp.cor(data1, data2) # 返回两组数据的相关性复制代码
import DaPy as dp

datas = dp.DataSet('ExamplesDB.csv') # 初始化数据集

datas.readframe() # 数据框方式读取数据

datas.readcol() # 按列读取数据

datas.titles # 查阅数据集变量名

datas[title] # 提取数据集某一列变量

datas.tocsv('MyDB.csv') # 将当前数据集保存至文件

dp.Statistic(data) # 返回数据的数字特征

dp.CountDistribution(data) # 返回数据的分布直方图参数

dp.CountQuantiles(data) # 返回数据的分位数

dp.cor(data1, data2) # 返回两组数据的相关性复制代码

4 最新版本功能

    <1> 支持从文件中以“数据表导入”,“数据框导入”和“按列导入”方式读取数据集;

    <2> 支持快速地读取数据集中的记录;

    <3> 支持快速地将数据集写入csv文件;

    <4> 支持快速计算一组数据的数字特征,多角度统计数据的分布情况;


详细的使用指南请查询官方网站:https://github.com/JacksonWuxs/DaPy