vaex 适用于Python,ML的核心数据框

Vaex是一个高性能Python库,用于懒惰的Out-of-Core DataFrame(类似于Pandas),以可视化和探索大型表格数据集。


它在N维网格上以每秒超过十亿(10 ^ 9)的样本/行计算统计数据,例如平均值,总和,计数,标准差等。


可视化使用直方图,密度图和3d体积渲染完成,从而允许交互式探索大数据。


Vaex使用内存映射,零内存复制策略和惰性计算来获得最佳性能(不浪费内存)。


关键特性:

即时打开庞大数据文件(内存映射)

核外数据框

快速分组/聚合

快速高效的合并

集成到Jupyter和Voila中以实现交互式笔记本和仪表板


项目地址:

https://github.com/vaexio/vaex/


02 

 Semantic-Search 使用Transformers等进行语义搜索


使用感知嵌入的简单应用程序可以将文档投影到高维空间中,并使用余弦相似度找到大多数相似度。


目的是演示和比较模型。要进行大规模部署,必须计算并保存文档嵌入,以快速搜索和计算相似性。


第一次加载需要很长时间,因为该应用程序将下载所有模型。除了运行6个模型外,即使在CPU中,推理时间也是可以接受的。


本周优秀开源项目分享,Python ML的核心数据框、无模型中文 NLP 工具包 等7大开源项目_java


演示文本包含有关每个主题的4个句子:Apple,操作系统,Java和Python。


可能会看到语义搜索效果很好,只过滤了有关特定查询的文档,即使查询中文档中没有俗套的单词也是如此。


项目地址:

https://github.com/renatoviolin/Semantic-Search


03 

 JioNLP 无模型中文 NLP 工具包

JioNLP 是一个提供常用 NLP 功能的工具包,宗旨是直接提供方便快捷的解析、词典类、深度学习模型加速的面向中文的工具接口,并提供一步到位的查阅入口。帮助开发者解决基础的 NLP 需求和操作。


功能主要包括:文本清洗,去除HTML标签、异常字符、冗余字符,转换全角字母、数字、空格为半角,抽取及删除E-mail及域名、电话号码、QQ号、括号内容、身份证号、IP地址、URL超链接、货币金额与单位,解析身份证号信息、手机号码归属地、座机区号归属地,按行快速读写文件,(多功能)停用词过滤,(优化的)分句,地址解析,新闻地域识别,繁简体转换,汉字转拼音,汉字偏旁、字形、四角编码拆解,基于词典的情感分析,色情数据过滤,反动数据过滤,关键短语抽取,成语词典、歇后语词典、新华字典、新华词典、停用词典、中国地名词典、世界地名词典,基于词典的NER,NER的字、词级别转换,NER的entity和tag格式转换,NER模型的预测阶段加速并行工具集,NER标注和模型预测的结果差异对比,NER标注数据集分割与统计,文本分类标注数据集的分割与统计。


特性:

正则抽取与解析

文件读写工具

词典加载与使用

实体识别(NER)算法辅助工具集

文本分类


项目地址:

https://github.com/dongrixinyu/JioNLP


04  deepdow 通过深度学习优化投资组合


deepdow是一个Python包,用于投资项目组合优化和深度学习。它的目标是促进对在一个前向计算中执行权重分配的网络的研究。


deepdow尝试合并投资组合优化中两个非常常见的步骤:

预测市场的未来发展(LSTM,GARCH等)

优化问题设计和解决方案(凸优化,...)


它通过构造层流水线来实现。最后一层执行分配,所有先前的层充当特征提取器。整个网络是完全可微的,可以通过梯度下降算法优化其参数。


特性:

所有层都建立在torch上并且完全可区分;

集成了可微凸优化(cvxpylayers);

实现基于聚类的投资组合分配算法;

多种数据加载策略(RigidDataLoader,FlexibleDataLoader);

通过回调与mlflow和tensorboard集成;

提供各种损失,例如锐化比,最大跌幅,...;

易于扩展和定制;

CPU和GPU支持。


项目地址:

https://github.com/jankrepl/deepdow


05

  detr Transformers端对端物体检测


PyTorch训练代码和DETR(DEtection TRansformer)的预训练模型。我们用Transformer代替了整个复杂的手工物体检测管道,并用ResNet-50匹配了Faster R-CNN,使用一半的计算能力(FLOP)和相同数量的参数在COCO上获得了42个AP。在PyTorch的50行中进行推断。


与传统的计算机视觉技术不同,DETR将对象检测作为直接设置的预测问题。它由基于集合的全局损失(通过二分匹配强制唯一预测)和Transfromer编码器-解码器体系结构组成。


给定固定的学习对象查询集,则DETR会考虑对象与全局图像上下文之间的关系,以直接并行并行输出最终的预测集。由于这种并行性质,DETR非常快速和高效。


我们认为,对象检测不应该比分类困难,也不需要复杂的库来进行训练和推理。DETR的实现和实验非常简单,我们提供了一个独立的Colab笔记本,展示了如何仅用几行PyTorch代码进行DETR推理。


训练代码遵循了这个想法-它不是一个库,而是一个带有标准训练循环的main.py导入模型和标准定义。


本周优秀开源项目分享,Python ML的核心数据框、无模型中文 NLP 工具包 等7大开源项目_java_02


项目地址:

https://github.com/facebookresearch/detr


06

  FinancialDatasets 金融文本数据集

本周优秀开源项目分享,Python ML的核心数据框、无模型中文 NLP 工具包 等7大开源项目_java_03

本周优秀开源项目分享,Python ML的核心数据框、无模型中文 NLP 工具包 等7大开源项目_java_04


推荐研究方向:

Embedding (Word2Vec, Bert, 等)

实体识别 - NER

无监督聚类: 基于企业描述信息, 进行竞品聚类

企业行业分类

标题总结 - Text Summary

序列分类 - Sequence Classification


项目地址:

https://github.com/smoothnlp/FinancialDatasets


07

  mmfashion 基于PyTorch的用于视觉时尚分析的开源工具箱


MMFashion是一个基于PyTorch的开源视觉时尚分析工具箱。这是香港中文大学多媒体实验室开发的开放式mmlab项目的一部分。


本周优秀开源项目分享,Python ML的核心数据框、无模型中文 NLP 工具包 等7大开源项目_java_05