本周优秀开源项目分享，Python ML的核心数据框、无模型中文 NLP 工具包等7大开源项目

原创

mb5fd86d5f5874e 2021-03-26 09:44:35 ©著作权

文章标签 java 文章分类 Java 后端开发

©著作权归作者所有：来自51CTO博客作者mb5fd86d5f5874e的原创作品，请联系作者获取转载授权，否则将追究法律责任

vaex 适用于Python，ML的核心数据框

Vaex是一个高性能Python库，用于懒惰的Out-of-Core DataFrame（类似于Pandas），以可视化和探索大型表格数据集。

它在N维网格上以每秒超过十亿（10 ^ 9）的样本/行计算统计数据，例如平均值，总和，计数，标准差等。

可视化使用直方图，密度图和3d体积渲染完成，从而允许交互式探索大数据。

Vaex使用内存映射，零内存复制策略和惰性计算来获得最佳性能（不浪费内存）。

关键特性：

即时打开庞大数据文件（内存映射）
核外数据框
快速分组/聚合
快速高效的合并
集成到Jupyter和Voila中以实现交互式笔记本和仪表板

项目地址：

https://github.com/vaexio/vaex/

Semantic-Search 使用Transformers等进行语义搜索

使用感知嵌入的简单应用程序可以将文档投影到高维空间中，并使用余弦相似度找到大多数相似度。

目的是演示和比较模型。要进行大规模部署，必须计算并保存文档嵌入，以快速搜索和计算相似性。

第一次加载需要很长时间，因为该应用程序将下载所有模型。除了运行6个模型外，即使在CPU中，推理时间也是可以接受的。

本周优秀开源项目分享，Python ML的核心数据框、无模型中文 NLP 工具包等7大开源项目_java

演示文本包含有关每个主题的4个句子：Apple，操作系统，Java和Python。

可能会看到语义搜索效果很好，只过滤了有关特定查询的文档，即使查询中文档中没有俗套的单词也是如此。

项目地址：

https://github.com/renatoviolin/Semantic-Search

JioNLP 无模型中文 NLP 工具包

JioNLP 是一个提供常用 NLP 功能的工具包，宗旨是直接提供方便快捷的解析、词典类、深度学习模型加速的面向中文的工具接口，并提供一步到位的查阅入口。帮助开发者解决基础的 NLP 需求和操作。

功能主要包括：文本清洗，去除HTML标签、异常字符、冗余字符，转换全角字母、数字、空格为半角，抽取及删除E-mail及域名、电话号码、QQ号、括号内容、身份证号、IP地址、URL超链接、货币金额与单位，解析身份证号信息、手机号码归属地、座机区号归属地，按行快速读写文件，（多功能）停用词过滤，（优化的）分句，地址解析，新闻地域识别，繁简体转换，汉字转拼音，汉字偏旁、字形、四角编码拆解，基于词典的情感分析，色情数据过滤，反动数据过滤，关键短语抽取，成语词典、歇后语词典、新华字典、新华词典、停用词典、中国地名词典、世界地名词典，基于词典的NER，NER的字、词级别转换，NER的entity和tag格式转换，NER模型的预测阶段加速并行工具集，NER标注和模型预测的结果差异对比，NER标注数据集分割与统计，文本分类标注数据集的分割与统计。

特性：

正则抽取与解析
文件读写工具
词典加载与使用
实体识别(NER)算法辅助工具集
文本分类

项目地址：

https://github.com/dongrixinyu/JioNLP

04 deepdow 通过深度学习优化投资组合

deepdow是一个Python包，用于投资项目组合优化和深度学习。它的目标是促进对在一个前向计算中执行权重分配的网络的研究。

deepdow尝试合并投资组合优化中两个非常常见的步骤：

预测市场的未来发展（LSTM，GARCH等）
优化问题设计和解决方案（凸优化，...）

它通过构造层流水线来实现。最后一层执行分配，所有先前的层充当特征提取器。整个网络是完全可微的，可以通过梯度下降算法优化其参数。

特性：

所有层都建立在torch上并且完全可区分；
集成了可微凸优化（cvxpylayers）；
实现基于聚类的投资组合分配算法；
多种数据加载策略（RigidDataLoader，FlexibleDataLoader）；
通过回调与mlflow和tensorboard集成；
提供各种损失，例如锐化比，最大跌幅，...；
易于扩展和定制；
CPU和GPU支持。

项目地址：

https://github.com/jankrepl/deepdow

detr Transformers端对端物体检测

PyTorch训练代码和DETR（DEtection TRansformer）的预训练模型。我们用Transformer代替了整个复杂的手工物体检测管道，并用ResNet-50匹配了Faster R-CNN，使用一半的计算能力（FLOP）和相同数量的参数在COCO上获得了42个AP。在PyTorch的50行中进行推断。

与传统的计算机视觉技术不同，DETR将对象检测作为直接设置的预测问题。它由基于集合的全局损失（通过二分匹配强制唯一预测）和Transfromer编码器-解码器体系结构组成。

给定固定的学习对象查询集，则DETR会考虑对象与全局图像上下文之间的关系，以直接并行并行输出最终的预测集。由于这种并行性质，DETR非常快速和高效。

我们认为，对象检测不应该比分类困难，也不需要复杂的库来进行训练和推理。DETR的实现和实验非常简单，我们提供了一个独立的Colab笔记本，展示了如何仅用几行PyTorch代码进行DETR推理。

训练代码遵循了这个想法-它不是一个库，而是一个带有标准训练循环的main.py导入模型和标准定义。

本周优秀开源项目分享，Python ML的核心数据框、无模型中文 NLP 工具包等7大开源项目_java_02