spark异常 - Null value appeared in non-nullable field

原创

jast_zsh 2023-05-06 14:57:42 博主文章分类：spark ©著作权

文章标签 spark java scala 文章分类 JavaScript 前端开发

©著作权归作者所有：来自51CTO博客作者jast_zsh的原创作品，请联系作者获取转载授权，否则将追究法律责任

主要代码如下

val rdd=sc.newAPIHadoopRDD(hBaseConf, classOf[TableInputFormat], classOf[ImmutableBytesWritable],
      classOf[Result])
    import spark.implicits._
    val value :RDD[UserSchemaClass]= rdd.map(convertHive)
    val tempDS = value .toDF()
    tempDS.createTempView("test_table")
    spark.sql("desc test_table").show(false)
    spark.sql("select `name` from test_table limit 10").show(false)

这里描述一下converHive函数的一个功能：将查出来的数据进行过滤，符合条件返回 UserSchemaClass 不符合条件返回空

提交运行报错如下

Exception in thread "main" org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 1 times, most recent failure: Lost task 0.0 in stage 0.0 (TID 0, localhost, executor driver): java.lang.NullPointerException: Null value appeared in non-nullable field:
top level Product input object
If the schema is inferred from a Scala tuple/case class, or a Java bean, please try to use scala.Option[_] or other nullable types (e.g. java.lang.Integer instead of int/scala.Int).

原因是rdd为空时转换 DataFrame 或者 DataSet ，查询时会报错，所以转换时不要将空转换

修改如下代码

val value :RDD[UserSchemaClass]= rdd.map(convertHive).filter(_!=null)

上一篇：Spark-shell 脚本批量执行命令，命令行批量执行命令

下一篇：mitmproxy 中间人代理工具，抓包工具，linux抓包工具 mitmproxy 使用

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯