一、大数据架构 并发计算:并行计算:很少会说并发计算,一般都是说并行计算,但是并行计算用的是并发技术。并发更偏向于底层。并发通常指的是单机上的并发运行,通过多线程来实现。而并行计算的范围更广,他是散布到集群上的分布式计算。Spark内存计算比hadoop快100倍,磁盘计算快10倍,在worker节点主要基于内存进行计算,避免了不必要的磁盘io。二、Spark模块Spark是没有分布式存
转载 2023-08-21 11:17:07
72阅读
官网上最清晰 sc 启动spark时候就已经初始化好了 sc.textFile后 会产生一个rdd spark 的算子分为两类 一类 Transformation 转换 一类 Action 动作 Transformation 延迟执行 记录元数据信息 当计算任务触发Action时候才会真正的开始计算
转载 2017-09-16 11:31:00
41阅读
2评论
和小伙伴们一起做这个项目好久了,上线期间也是遇到了许多问题,这里自我总结下,防止下次再犯! 项目在开发方面主要是基于spark开发的,里面使用到了spark core、spark sql、spark Streaming去进行编程,项目中有多个模块,像用户session分析模块、单条转换率模块、各区域热门商品模块、广告实时点击流统计模块等。 项目中遇到的问题: 1、classNotFound问题 使
Hadoop/Spark相关面试问题总结 <!-- author: 小黑 date: 2015-07-16 title: Hadoop/Spark相关面试问题总结 tags: Others category: Others status: publish summary: Hadoop/Spark
转载 2017-08-13 18:32:00
143阅读
2评论
1、设置块大小 sc.hadoopConfiguration.setLong(fs.local.block.size,128x1024x1024) 2、读取csv 1 val schema = "name string, age int, job string" 2 val df3 = spark. ...
转载 2021-07-12 19:01:00
93阅读
测试应用说明 测试的Spark应用实现了同步hive表到kafka的功能。具体处理流程:
原创 2021-09-07 11:11:57
873阅读
学习笔记Spark简介spark 可以很容易和yarn结合,直接调用HDFS、Hbase上面的数据,和hadoop结合。配置很容易。spark发展迅猛,框架比hadoop更加灵活实用。减少了延时处理,提高性能效率实用灵活性。也可以与hadoop切实相互结合。spark核心部分分为RDD。Spark SQL、Spark Streaming、MLlib、GraphX、Sp
转载 2023-12-05 21:22:36
64阅读
    声明: 1. 本文为我的个人复习总结, 并非那种从零基础开始普及知识 内容详细全面, 言辞官方的文章               2. 由于是个人总结, 所以用最精简的话语来写文章  &nbs
转载 2024-01-03 09:58:53
79阅读
1点赞
网页访问时候 没有打开 注意防火墙! 启动park shell bin下面的spark-shell 这样启动的是单机版的 可以看到没有接入集群中: 应该这么玩儿 用park协议 spark://192.168.94.132:7077 地址 协议 ./spark-shell --mster spark
转载 2017-09-15 22:10:00
47阅读
cd 到hadoop中 然后格式化 进入到 bin下 找到 hdfs 然后看看里面有哈参数: ./hdfs namenode -format 格式化 然后启动 sbin/start-dfs.sh hdfs的关系界面 http://192.168.94.132:50070/ 创建文本: 创建个目录 h
转载 2017-09-16 11:01:00
82阅读
安装jdk 下载spark安装包 解压 重点来了: 配置 spark: 进入 conf 》 spark-env.sh.template文件 cd conf/ mv spark-env.sh.template spark-env.sh vi spark-env.sh 添加: 在该配置文件中添加如下配置
转载 2017-09-15 20:46:00
268阅读
  作者:csj 回主目录:2017 年学习记录和总结   1 安装spark及简介 spark 是用scala语言编写的一套分布式内存计算系统,他的核心抽象模型是RDD(弹性分布式数据集),围绕rdd构件了一系列分布式API 可以直接对数据集进行分布式处理。 相对于mapreduce上的批量计算,跌代计算,以及基于hive的sql查询,spark可以带来1到2个数量级的效力提 升。 spark
转载 2021-07-23 11:34:19
188阅读
spark原理driver创建sparkContext,sparkContext向master申请资源,申请完资源之后,
原创 2023-01-06 15:49:21
76阅读
spark优化: 一、代码优化: 1.避免创建重复的RDD 2.对多次使用的rdd进行缓存 缓存级别一般使用MEMORY_AND_DISK_SER 3.使用高性能的算子(reducebykey,foreachpatition[一般用于和外部数据库进行连接时],coalelce【合并小文件】) 4.避 ...
转载 2021-07-28 23:20:00
238阅读
2评论
Storm和SparkStreaming区别stormsparkStreaming纯实时的流式处理,来一条数据就...
转载 2022-09-02 18:22:42
99阅读
一:Spark SQL下的Parquet意义再思考1, 如果说HDFS是大数据时代分布式文件系统存储的事实标准的话,Parquet则是整个大数据时代文件存储格式的事实标准。2, 速度更快:从使用Spark SQL 操作普通文件CSV和Parquet文件的速度对比上来看,绝大多数情况下使用Parquet会比使用CSV等普通文件速度提升10倍左右(在一些普通文件系统无法再Spar
转载 2023-08-21 10:48:03
122阅读
7 内存溢出问题     在Spark中使用hql方法执行hive语句时,由于其在查询过程中调用的是Hive的获取元数据信息、SQL解析,并且使用Cglib等进行序列化反序列化,中间可能产生较多的class文件,导致JVM中的持久代使用较多,如果配置不当,可能引起类似于如下的OOM问题: 1. Exception in thread "Thread-2" java
转载 2023-08-29 08:38:07
143阅读
最近总结一波面试问题(包括python,MySQL,大数据等,一个人力量有限),有兴趣查看 github1.数据倾斜的产生和解决办法?数据倾斜以为着某一个或者某几个 partition 的数据特别大,导致这几个 partition 上的计算需要耗费相当长的时间。在 spark 中同一个应用程序划分成多个 stage,这些 stage 之间是串行执行的,而一个 stage 里面的多个 ta
转载 2023-10-27 14:21:23
58阅读
问题一:日志中出现:org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 0原因分析: shuffle分为shuffle write和shuffle read两部分。 shuffle write的分区数由上一阶段的RDD分区数控制,shuffle read的分区数则
转载 2023-10-27 09:28:07
1589阅读
一、SparkCoreSpark是一个计算框架,可以基于内存处理数据Spark & MR区别1.Spark可以基于内存处理数据,MR基于磁盘处理数据2.Spark有DAG有向无环图Spark技术栈Spark Core, SQL,StreamingHadoop MR,Hive, Storm ,HDFS,YarnSpark 运行模式Local 多用于本
转载 2023-08-10 02:13:28
221阅读
  • 1
  • 2
  • 3
  • 4
  • 5