Java spark项目 java spark map

转载

智能领航员 2023-07-31 15:42:13

文章标签 Java spark项目 Boo 数据 java 文章分类 Java 后端开发

　　通常写spark的程序用scala比较方便，毕竟spark的源码就是用scala写的。然而，目前java开发者特别多，尤其进行数据对接、上线服务的时候，这时候，就需要掌握一些spark在java中的使用方法了

　　一、map

　　map在进行数据处理、转换的时候，不能更常用了

　　在使用map之前首先要定义一个转换的函数格式如下：

Function<String, LabeledPoint> transForm=new Function<String, LabeledPoint>() {//String是某一行的输入类型 LabeledPoint是转换后的输出类型
　　@Override
　　public LabeledPoint call(String row) throws Exception {//重写call方法
　　String[] rowArr=row.split(",");
　　int rowSize=rowArr.length;
　　double[] doubleArr=new double[rowSize-1];
　　//除了第一位的lable外 其余的部分解析成double 然后放到数组中
　　for (int i=1; i < rowSize; i++) {
　　String each=rowArr[i];
　　doubleArr[i]=Double.parseDouble(each);
　　}
　　//用刚才得到的数据 转成向量
　　Vector feature=Vectors.dense(doubleArr);
　　double label=Double.parseDouble(rowArr[0]);
　　//构造用于分类训练的数据格式 LabelPoint
　　LabeledPoint point=new LabeledPoint(label, feature);
　　return point;
　　}
　　};

　　需要特别注意的是：

　　1、call方法的输入应该是转换之前的数据行的类型返回值应是处理之后的数据行类型

　　2、如果转换方法中调用了自定义的类，注意该类名必须实现序列化比如

public class TreeEnsemble implements Serializable {
　　}

　　3、转换函数中如果调用了某些类的对象，比如该方法需要调用外部的一个参数，或者数值处理模型（标准化，归一化等），则该对象需要声明是final

　　然后就是在合适的时候调用该转换函数了

　　JavaRDD rdd=oriData.toJavaRDD().map(transForm);

　　这种方式是需要将普通的rdd转成javaRDD才能使用的，转成javaRDD的这一步操作不耗时，不用担心

　　二、filter

　　在避免数据出现空值、0等场景中也非常常用，可以满足sql中where的功能

　　这里首先也是要定义一个函数，该函数给定数据行返回布尔值实际效果是将返回为true的数据保留

　　Function<String, Boolean> boolFilter=new Function<String, Boolean>() {//String是某一行的输入类型 Boolean是对应的输出类型用于判断数据是否保留

@Override
　　public Boolean call(String row) throws Exception {//重写call方法
　　boolean flag=row!=null;
　　return flag;
　　}
　　};

　　通常该函数实际使用中需要修改的仅仅是row的类型也就是数据行的输入类型，和上面的转换函数不同，此call方法的返回值应是固定为Boolean

　　然后是调用方式

JavaRDD rdd=oriData.toJavaRDD().filter(boolFilter);

　　三、mapToPair

　　该方法和map方法有一些类似，也是对数据进行一些转换。不过此函数输入一行输出的是一个元组，最常用的方法是用来做交叉验证或者统计错误率召回率计算AUC等等

　　同样，需要先定义一个转换函数

Function<String, Boolean> transformer=new PairFunction<LabeledPoint, Object, Object>() {//LabeledPoint是输入类型 后面的两个Object不要改动
　　@Override
　　public Tuple2 call(LabeledPoint row) throws Exception {//重写call方法 通常只改动输入参数 输出不要改动
　　double predicton=thismodel.predict(row.features());
　　double label=row.label();
　　return new Tuple2(predicton, label);
　　}
　　});

　　关于调用的类、类的对象，要求和之前的一致，类需要实现序列化，类的对象需要声明成final类型

　　相应的调用如下：

JavaPairRDD<Object, Object> predictionsAndLabels=oriData.mapToPair(transformer);

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：mysql批量修改sql 批量修改sql语句

下一篇：JavaScript 有哪些语法树库 javascript的语法

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

Java spark项目 java spark map

Java spark项目 java spark map

51CTO博客