git init #
==> 第一步:设置本地环境变量 ----> 修改pycharm.exe.vmoptions文件, 添加 -Dfile.encoding=UTF-8 将本地环境设置为UTF-8 ==> 第二步: 设置 File Encodings ---
==> 安装 pip install ipdb==> 使用 ---> python -m ipdb xxx.py 程序内部: from ipdb import set_trace set_trace()==> 常用命令ENTE
# 创建目录 mkdir /data/tools/centos_yumcd /data/tools/centos_yum# 下载软件包,若地址不对,到此网站上找http://mirrors.163.com/centos/7/os/x86_64/Packages/wget http://mirrors.163.com/centos/7/os/x86_64/Packages/yum-3.4.
==> 在内存中缓存数据 ---> 性能调优主要是将数据放入内存中操作 ---> 使用例子:// 从 Oracle 数据库中读取数据,生成 DataFrame val oracleDF = spark.read
==> 什么是parquet Parquet 是列式存储的一种文件类型==> 官网描述: Apache Parquet i
==>什么是SparkSQL?--->SparkSQL是Spark用来处理结构化数据的一个模块--->作用:提供一个编程抽象(DataFrame)并且作为分布式SQL查询引擎--->运行原理:将SparkSQL转化为RDD,然后提交到集群执行--->特点:----容易整合----统一的数据访问方式----兼容Hive----标准的数据连接----==>DataFrames组织成命名列的数据集,等同
==>mapPartitionsWithIndex--->定义:defmapPartitionsWithIndex[U](f:(Int,Iterator[T])=>Iterator[U],preserversPartitioning:Boolean=false)--->作用:对RDD每个分区进行操作,带有分区号--->示例:输出分区号和内容//创建一个RDDvalrdd1=sc.paralleli
==>RDD是什么?--->RDD(ResilientDistributedDataset)弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可并行计算的集合--->特点:----自动容错----位置感知性高度----可伸缩性----允许用户在执行多个查询时显示的将工作集缓存在内存中,后续的查询能够重用工作集,极大的提升了查询速度--->RDD的属性----Al
package mydemo import org.apache.spark.{SparkConf, SparkContext} object MyWordCountDemo { def main(args: Array[String]): Unit = {
==> 读取行// 读取行 val source = scala.oi.Source.fromFile("d:\\test\\a.txt") // 将整个文件作为一个字符串 // 将文件中的每一行读入==> 读取字符val source = scala.o
spark环境部署
Spark
==>泛型类--->T可以代表任意类型classPerson[T]{privatevarname:T=_defsetName(name:T)={this.name=name}defgetName():T={this.name}}//***********测试*****************objectPerson{defmain(args:Array[String]):Unit={varp=ne
==>Scala有一个强大的模式匹配机制,类似于switch语句,可以实现对类型的判断以及检查,还提供了样本类,使其可以对样本类的对象进行模式匹配==>模式匹配示例==>Scala守卫==>模式匹配中的变量==>模式匹配中的数组和列表==>样本类(CaseClass)==>通过使用样本类判断对象是否属于类==>==>
==> Scala 中的数据集合:Map、列表、序列、集==> 集合有两种: 可变集合,不可变集合 ---> 可变集合 可以对集合进行修改操作 --
==> 常用函数讲解 ---> map 作用于列表中的每一个元素// 定义一个列表 val list= List(1,2,3,4,5,6,7,8,9) // list 列表中的所有元素乘以2 li
==>类--->类的定义classStudent{//定义属性privatevarstuName:String="Tom"privatevatstuAge:Int=18//定义方法defgetStuName():String=stuNamedefsetStuName(newName:String)={this.stuName=newName}}--->伴生类和伴生对象object相当于Java中的
Java的对象传递举一个简单的例子说明一下一个Person类,一个Car类,需求:可以通过关联两个类,使Person对象可以调用所关联的Car类的对象中的方法Person类ClassPerson{//设置变量privateintpid;privateStringpname;privateintpage;privateCarcname;//多参构造方法publicPerson(Stringpname
注:--------scala中的任何数据都是对象--------Scala可以对数据类型进行自动推导,所以定义变量时可省去数据类型==>数据类型-->数值类型---Byte8位---Short16位---Int32位---long64位-->字符和字符串类型---Char---String-->Unit类型相当于Java的void-->Nothing类型般表示运行过程中出现了Exception=
==>Scala语言简介-->Scala编程语言抓住了很多开发者的眼球。如果你粗略浏览Scala的网站,你会觉得Scala是一种纯粹的面向对象编程语言,而又无缝地结合了命令式编程和函数式编程风格-->不太久之前编程语言还可以毫无疑意地归类成“命令式”或者“函数式”或者“面向对象”。Scala代表了一个新的语言品种,它抹平了这些人为划分的界限。==>Scala有几项关键特性表明了它的面向对象的本质-
===> 什么是 Storm? --> Twitter将Storm正式开源了,这是一个分布式的、容错的实时计算系统,遵循 Eclipse Public License 1.0。 -->
===> Redis内存数据库简介: Redis 是完全开源免费的,遵守BSD协议,是一个高性能的key-value数据库。===> Redis 的特点:
===> 环境架构部署规划: bigdata1 NameNode ResourceManager Zookeeper JournalNode failOverController bigdata2 NameNode ResourceManager Zookeeper JournalNode failOverController bigdata3 DataNode NodeM
===> Zookeeper 是什么? => ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。
HUE是什么HUE=Hadoop User ExperienceHue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数
1. 关闭正在运行的MySQL服务2. 打开DOS窗口,转到mysql\bin目录3. 输入mysqld --skip-grant-tables 回车 --skip-grant-tables 的意思是启动MySQL服务的时候跳过权限表认证4. 再开一个DOS窗口(因为刚才那个DOS窗口已经不能动了),转到mysql\bin目录 5. 输
Sqoop数据分析引擎安装与使用==>什么是Sqoop?Sqoop是一个开源的数据处理引擎,主要是通过JDBC为媒介,在Hadoop(Hive)与传统的关系型数据库(Oracle,MySQL,Postgres等)间进行数据的传递HDFSHiveHBaseJDBC>Oracle,MySQL,==>Sqoop的安装:1.将安装包解压:tarzxfsqoop-1.4.6.bin__hadoop-0.23
Pig 简介: Pig 是 Apache 项目的一个子项目,Pig 提供了一个支持大规模数据分析的平台,Pig 突出的特点就是它的结构经得起大量并行任务的检验,使得它能够处理大规模数据集Pig 特点: Pig 可简化 MapReduce 任务的开发&nb
&n
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号