Python之pypmml：pypmml的简介、安装、使用方法之详细攻略

原创

一个处女座的程序猿 2021-06-15 18:07:15 ©著作权

文章标签 Python开发 Python教程 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者一个处女座的程序猿的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python之pypmml：pypmml的简介、安装、使用方法之详细攻略

2、利用XGBoost模型对Iris数据训练并转为PMML文件，载入并实现预测

pypmml的简介

pypmml是一个python pmml评分库，它实际上是用于PMML4S的python api。pmml经常是跨平台给java调用，借用PMML模型进行上线测试，即采用Python语言做模型训练，线上采用 Java 载入模型做预测。离线部分负责模型训练和导出模型，线上导入模型并且做预测。当然特征工程部分主要做特征变换，例如分桶，单值编码，归一化等。
预测模型标记语言PMML（Predictive Model Markup Language）是一套与平台和环境无关的模型表示语言，是目前表示机器学习模型的实际标准。PMML是一种可以呈现预测分析模型的事实标准语言。标准东西的好处就是，各种开发语言都可以使用相应的包，把模型文件转成这种中间格式，而另外一种开发语言，可以使用相应的包导入该文件做线上预测。
从2001年发布的PMML1.1，到2019年最新4.4，PMML标准已经由最初的6个模型扩展到了17个模型，并且提供了挖掘模型（Mining Model）来组合多模型。作为一个开放的成熟标准，PMML由数据挖掘组织DMG（Data Mining Group）开发和维护，经过十几年的发展，得到了广泛的应用，有超过30家厂商和开源项目（包括SAS，IBM SPSS，KNIME，RapidMiner等主流厂商）在它们的数据挖掘分析产品中支持并应用PMML，
PMML是一套基于XML的标准，通过 XML Schema 定义了使用的元素和属性，主要由以下核心部分组成：

数据字典（Data Dictionary），描述输入数据。
数据转换（Transformation Dictionary和Local Transformations），应用在输入数据字段上生成新的派生字段。
模型定义（Model），每种模型类型有自己的定义。
输出（Output），指定模型输出结果。

1、PMML优点

平台无关性。PMML可以让模型部署环境脱离开发环境，实现跨平台部署，是PMML区别于其他模型部署方法最大的优点。比如使用Python建立的模型，导出PMML后可以部署在Java生产环境中。
互操作性。这就是标准协议的最大优势，实现了兼容PMML的预测程序可以读取其他应用导出的标准PMML模型。
广泛支持性。已取得30余家厂商和开源项目的支持，通过已有的多个开源库，很多重量级流行的开源数据挖掘模型都可以转换成PMML。
可读性。PMML模型是一个基于XML的文本文件，使用任意的文本编辑器就可以打开并查看文件内容，比二进制序列化文件更安全可靠。

2、PMML的缺点

数据处理操作有限。支持不了所有的数据预处理和后处理操作。虽然PMML已经支持了几乎所有的标准数据处理方式，但是对用户一些自定义操作，还缺乏有效的支持，很难放到PMML中。
模型类型支持有限。特别是缺乏对深度学习模型的支持，PMML下一版5.0会添加对深度模型的支持，目前Nyoka可以支持Keras等深度模型，但生成的是扩展的PMML模型。
PMML是一个松散的规范标准，有的厂商生成的PMML有可能不太符合标准定义的Schema，并且PMML规范允许厂商添加自己的扩展，这些都对使用这些模型造成了一定障碍。

参考文章：https://zhuanlan.zhihu.com/p/79197337

pypmml的安装

pip install pypmml
pip install --user -i https://pypi.tuna.tsinghua.edu.cn/simple pypmml

Python之pypmml：pypmml的简介、安装、使用方法之详细攻略_Python开发

pypmml的使用方法

1、基础案例

heart_data = pandas.read_csv("heart.csv")
＃用Mapper定义特征工程
mapper = DataFrameMapper([
    (['sbp'], MinMaxScaler()),
    (['tobacco'], MinMaxScaler()),
    ('ldl', None),
    ('adiposity', None),
    (['famhist'], LabelBinarizer()),
    ('typea', None),
    ('obesity', None),
    ('alcohol', None),
    (['age'], FunctionTransformer(np.log)),
]) 

＃用pipeline定义使用的模型，特征工程等
pipeline = PMMLPipeline([
   ('mapper', mapper),
   ("classifier", linear_model.LinearRegression())
])

pipeline.fit(heart_data[heart_data.columns.difference(["chd"])], heart_data["chd"])
＃导出模型文件
sklearn2pmml(pipeline, "lrHeart.xml", with_repr = True)

2、利用XGBoost模型对Iris数据训练并转为PMML文件，载入并实现预测

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
import pandas as pd
from xgboost import XGBClassifier

seed = 123

iris = datasets.load_iris()
target = 'Species'
features = iris.feature_names
iris_df = pd.DataFrame(iris.data, columns=features)
iris_df[target] = iris.target

X, y = iris_df[features], iris_df[target]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=seed)

pipeline = Pipeline([
    ('scaling', StandardScaler()), 
    ('xgb', XGBClassifier(n_estimators=5, seed=seed))
])

pipeline.fit(X_train, y_train)
y_pred = pipeline.predict(X_test)
y_pred_proba = pipeline.predict_proba(X_test)


from nyoka import xgboost_to_pmml
xgboost_to_pmml(pipeline, features, target, "xgb-iris.pmml")

from pypmml import Model
model = Model.load("xgb-iris.pmml")
model.predict(X_test)