git init #
==> 第一步:设置本地环境变量 ----> 修改pycharm.exe.vmoptions文件, 添加 -Dfile.encoding=UTF-8 将本地环境设置为UTF-8 ==> 第二步: 设置 File Encodings ---
==> 安装 pip install ipdb==> 使用 ---> python -m ipdb xxx.py 程序内部: from ipdb import set_trace set_trace()==> 常用命令ENTE
# 创建目录 mkdir /data/tools/centos_yumcd /data/tools/centos_yum# 下载软件包,若地址不对,到此网站上找http://mirrors.163.com/centos/7/os/x86_64/Packages/wget http://mirrors.163.com/centos/7/os/x86_64/Packages/yum-3.4.
==> 在内存中缓存数据 ---> 性能调优主要是将数据放入内存中操作 ---> 使用例子:// 从 Oracle 数据库中读取数据,生成 DataFrame val oracleDF = spark.read
==> 什么是parquet Parquet 是列式存储的一种文件类型==> 官网描述: Apache Parquet i
==>什么是SparkSQL?--->SparkSQL是Spark用来处理结构化数据的一个模块--->作用:提供一个编程抽象(DataFrame)并且作为分布式SQL查询引擎--->运行原理:将SparkSQL转化为RDD,然后提交到集群执行--->特点:----容易整合----统一的数据访问方式----兼容Hive----标准的数据连接----==>DataFrames组织成命名列的数据集,等同
==>mapPartitionsWithIndex--->定义:defmapPartitionsWithIndex[U](f:(Int,Iterator[T])=>Iterator[U],preserversPartitioning:Boolean=false)--->作用:对RDD每个分区进行操作,带有分区号--->示例:输出分区号和内容//创建一个RDDvalrdd1=sc.paralleli
==>RDD是什么?--->RDD(ResilientDistributedDataset)弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可并行计算的集合--->特点:----自动容错----位置感知性高度----可伸缩性----允许用户在执行多个查询时显示的将工作集缓存在内存中,后续的查询能够重用工作集,极大的提升了查询速度--->RDD的属性----Al
package mydemo import org.apache.spark.{SparkConf, SparkContext} object MyWordCountDemo { def main(args: Array[String]): Unit = {
==> 读取行// 读取行 val source = scala.oi.Source.fromFile("d:\\test\\a.txt") // 将整个文件作为一个字符串 // 将文件中的每一行读入==> 读取字符val source = scala.o
spark环境部署
Spark
==>泛型类--->T可以代表任意类型classPerson[T]{privatevarname:T=_defsetName(name:T)={this.name=name}defgetName():T={this.name}}//***********测试*****************objectPerson{defmain(args:Array[String]):Unit={varp=ne
==>Scala有一个强大的模式匹配机制,类似于switch语句,可以实现对类型的判断以及检查,还提供了样本类,使其可以对样本类的对象进行模式匹配==>模式匹配示例==>Scala守卫==>模式匹配中的变量==>模式匹配中的数组和列表==>样本类(CaseClass)==>通过使用样本类判断对象是否属于类==>==>
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号