spark 处理json spark 处理证书数据

转载

编程小达人 2023-06-13 15:38:25

文章标签 spark 处理json spark 大数据分布式数据 文章分类 Spark 大数据

Spark调用集群的计算/存储资源来处理数据，是大规模的数据处理/机器学习绕不开的一个话题。Spark提供获得数据（如RDD and DataFrame）以及数据分析（如MLLib）的工具。我个人主要是在公司里折腾深度学习模型，所以没有用不上MLLib中提供的工具。虽然说看databricks就知道这东西肯定很多人有用的。

RDD和DataFrame恰好是历史上的先后，我们也就照历史线写一下：

Spark RDD

这是wikipedia给出的一个scala RDD示例：

val conf = new SparkConf().setAppName("wiki_test") // create a spark config object
val sc = new SparkContext(conf) // Create a spark context
val data = sc.textFile("/path/to/somedir") // Read files from "somedir" into an RDD of (filename, content) pairs.
val tokens = data.flatMap(_.split(" ")) // Split each file into a list of tokens (words).
val wordFreq = tokens.map((_, 1)).reduceByKey(_ + _) // Add a count of one to each token, then sum the counts per word type.
wordFreq.sortBy(s => -s._2).map(x => (x._2, x._1)).top(10) // Get the top 10 words. Swap word and count to sort by count.

其中data这个参数就是RDD了，这个参数将来会以分布的形式被处理：在这个实例中，可以想见比如好多个核每个去算一些wordFreq，然后再把它们合并起来。这里的思想就是mapReduce，不过Spark RDD这个框架比起最初的mapReduce提供了更灵活的运算机制。

另外一个出现的有趣的点是优化，和所有工具一样，Spark提供了很多的底层的优化。理解这些优化的第一层就是它区分了tranformation和action。transformation产生RDD而只有action会要求得到数据（count, some data or IO of those data）；在上面的例子中，只有top要求得到一些数据。实际上所有的tranformation都是lazy evaluation，Spark会看着整个执行计划进行优化，上面的例子中，很容易想见它可以专注于那些count比较高的wordFreq，从而提高整个执行的效率。

Spark DataFrame

从Spark 2.x开始，DataFrame就是主要推荐的Spark处理方式。其主要是提供了一个相比与RDD更抽象而方便的接口：

import org.apache.spark.sql.SparkSession

val url = "jdbc:mysql://yourIP:yourPort/test?user=yourUsername;password=yourPassword" // URL for your database server.
val spark = SparkSession.builder().getOrCreate() // Create a Spark session object

val df = spark
  .read
  .format("jdbc")
  .option("url", url)
  .option("dbtable", "people")
  .load()

df.printSchema() // Looks at the schema of this DataFrame.
val countsByAge = df.groupBy("age").count() // Counts people by age

上面的例子中df就是dataframe, 它读取了jdbc数据并做了一个count action。这个抽象我觉得真的很方便，因为大家都会接触SQL Table或者pandas dataframe，而Spark就借助了这个很常见的抽象。尽管优化和实现上有很多区别，但是从外部看好像真的没什么区别。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。