python 轻量ide python 轻量 dag

转载

mob64ca1401b651 2023-08-09 12:57:10

文章标签 python 轻量ide python 开发工具数据库数据 文章分类 Python 后端开发

1 前言

Python拥有著名的重量级科学计算库Numpy和数据分析库Pandas，他们在工业界拥有着举足轻重的地位。但今天我们要介绍的是一个轻量级的数据分析库DaPy，其致力于节约数据科学家对数据集分析过程中的时间和成本，提高数据科学家的工作效率。

2 丰富且专业的功能

数据分析的过程大致为：数据载入，描述性统计，数据清洗，推断性统计，模型开发与调试。

在数据载入方面，DaPy的数据结构清晰简洁利于数据科学家 "感受" 数据；函数功能丰富且高效，节约数据科学家对于复杂数据的处理时间。在描述性统计方面，DaPy已经提供了全面的计算公式，可以帮助数据科学家快速了解数据特征。

在未来，DaPy将添加更多数据清洗、推断性统计方面的函数；实现更多数学模型建立过程中使用的公式；甚至内置一些简易的机器学习模型（多层感知机、支持向量机等）。DaPy按照数据分析的流程，正在不断地完善。

3 特性

3.1 优异的性能

通过DaPy加载并且遍历整个数据集（1,815,008条）所花费的时间，大约只有Numpy的30%和Pandas的6%；而内存占用仅仅为Numpy的20%和Pandas的8%。

3.2 精炼的语法

import DaPy as dp

datas = dp.DataSet('ExamplesDB.csv') # 初始化数据集

datas.readframe() # 数据框方式读取数据

datas.readcol() # 按列读取数据

datas.titles # 查阅数据集变量名

datas[title] # 提取数据集某一列变量

datas.tocsv('MyDB.csv') # 将当前数据集保存至文件

dp.Statistic(data) # 返回数据的数字特征

dp.CountDistribution(data) # 返回数据的分布直方图参数

dp.CountQuantiles(data) # 返回数据的分位数

dp.cor(data1, data2) # 返回两组数据的相关性复制代码
import DaPy as dp

datas = dp.DataSet('ExamplesDB.csv') # 初始化数据集

datas.readframe() # 数据框方式读取数据

datas.readcol() # 按列读取数据

datas.titles # 查阅数据集变量名

datas[title] # 提取数据集某一列变量

datas.tocsv('MyDB.csv') # 将当前数据集保存至文件

dp.Statistic(data) # 返回数据的数字特征

dp.CountDistribution(data) # 返回数据的分布直方图参数

dp.CountQuantiles(data) # 返回数据的分位数

dp.cor(data1, data2) # 返回两组数据的相关性复制代码