pyspark 随机森林特征重要性

转载

mb5fdcadbf25fde 2019-02-27 18:46:00

# IMPORT
>>> import numpy
>>> from numpy import allclose
>>> from pyspark.ml.linalg import Vectors
>>> from pyspark.ml.feature import StringIndexer
>>> from pyspark.ml.classification import RandomForestClassifier

# PREPARE DATA
>>> df = spark.createDataFrame([
...     (1.0, Vectors.dense(1.0)),
...     (0.0, Vectors.sparse(1, [], []))], ["label", "features"])
>>> stringIndexer = StringIndexer(inputCol="label", outputCol="indexed")
>>> si_model = stringIndexer.fit(df)
>>> td = si_model.transform(df)

# BUILD THE MODEL
>>> rf = RandomForestClassifier(numTrees=3, maxDepth=2, labelCol="indexed", seed=42)
>>> model = rf.fit(td)

# FEATURE IMPORTANCES
>>> model.featureImportances
SparseVector(1, {0: 1.0})

重要性：

model.featureImportances

pyspark 模型简单实例：

https://blog.csdn.net/Katherine_hsr/article/details/80988994

概率：

predictions.select("probability", "label").show(1000)

probability--->即为输出概率

pandas 打乱样本：

import pandas as pd

df = pd.read_excel("window regulator01 _0914新增样本.xlsx")

df = df.sample(frac = 1) #打乱样本

pyspark train、test 随机划分

 train, test = labeled_v.randomSplit([0.75, 0.25])

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：docker本地化异常：/bin/sh: warning: setlocale: LC_ALL: cannot change locale (en_US.UTF-8)

下一篇：visual studio 启动报 activityLog.xml文件错误

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

pyspark 随机森林特征重要性

pyspark 随机森林特征重要性

51CTO博客