Hadoop中包含计算框架MapReduce和分布式文件系统HDFS,spark是一个计算框架//中间结果:spark保存到内存、Hadoop保存到磁盘,spark将执行模型抽象为通用的有向无环图通用计划(DAG)///数据格式和内存布局:spark:分布式内存存储结构弹性分布式数据集RDD,进行数据的存储,RDD支持粗粒度写操作,RDD读取可精确到每条数据记录,RDD可用来做分布式索引spark
转载 8月前
18阅读
一、大数据的4V特征:1.大数据量:数据的存储量大,增量大 2.速度快:数据的增长速度快,对处理数据的响应速度有更严格的要求,数据的处理几乎无延迟,时效性高 3.多样性:1)数据的来源多样性,除了传统的交易数据外,还有社交网站等多种来源的数据 2)数据的种类多样性,具体可分为结构化数据,如财务系统数据等,半结构化数据,如网页等和非结构化数据,如视频,图片等 4.价值密度低:大数据真正的价值体
转载 2023-12-13 07:01:41
27阅读
[大数据4V特征] -----------------------------------------------------     1.Volum : 体量大          2.velocity: 速度快          3.variat
转载 2023-08-07 17:09:09
66阅读
(一)大数据特征规模性(volume)、多样性(variety)、价值密度(value)和 高速性(velocity)进行描述。1:数据量大(volume)       非结构化数据的超大规模增长导致数据集合的规模不断扩大,数据单位已经从GB级到TB级再到PB级,甚至开始以EB和ZB来计数。2:类型繁多(variety) &nb
文章目录Hadoop高手之路7-Hadoop的新特性一、Hadoop2.0以上新特性二、Yarn资源管理框架1. yarn体系结构2. yarn的工作流程三、HDFS的高可用HA1. HDFS的高可用(HA)架构2. 搭建Hadoop高可用HA集群1) 规划集群节点2) 环境准备3) 配置HA集群(1) 修改core-site.xml(2) 修改hdfs-site.xml(3) 修改mapred
hadoop3.x搭建学习Hadoop概述什么是hadoop?1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2)主要解决,海量数据的存储和海量数据的分析计算问题。3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。Hadoop四大特点1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。
转载 2023-07-21 14:35:44
34阅读
文章目录1、linux操作系统2、国产操作系统3、麒麟操作系统4、引用 1、linux操作系统 目前市场主流的linux操作系统分类大致如此,国产操作系统的麒麟操作系统,底层比较杂,所以单独一类。2、国产操作系统排名日期截止到2022.6。 这里提一下排名第一的深度Deepin官网地址 deepin是一份致力于为全球用户提供美观、易用、安全、免费的使用环境的Linux发行。它不仅仅包括对全球优秀
转载 2023-07-19 13:22:23
216阅读
相较与Hadoop1.0,Hadoop2.0提供了比较完整的单点故障解决方案(Hadoop HA)Hadoop2.0内核由三个分支组成:HDFS、MapReduce和YARN,其他的Hadoop生态系统组件比如:HBase、Hive、Pig等,均是基于这三个系统开发的。因此在Hadoop2.0,存在着三个子系统的单点故障问题。正式介绍解决方案之前,先简要回顾这三个子系统:(1)HDFS:即分布式存
转载 2023-07-24 09:28:39
94阅读
HA高可用配置一、简述-------------------high availability,高可用. 两个名称节点,一个active(激活态),一个是standby(slave待命),slave节点维护足够多状态以便于容灾。 和客户端交互的active节点,standby不交互. 两个节点都和JN守护进程构成组的进行通信。 数据节点配置两个名称节点,分别报告各自的信息。 同一时刻只能有一个激活
转载 2023-07-13 14:26:52
61阅读
package openClosedPrinciple; /**  * 开放封闭原则  *@author LiMing  E-mail:1151143484@qq.com  *@date 2017年6月11日  上午9:40:34  */ public class OpenClosedPrinciple { /* *开放-封闭原则 是说软件实体(类、模块、函数等等) 应该可以扩展,但是不可以修改
原创 2021-04-11 21:51:47
1074阅读
定义客户端不应该依赖它不需要的接口;一个类对另一个类的依赖应该建立在最小的接口上。问题由来类A通过接口I依赖类B,类C通过接口I依赖类D,如果接口I对于类A和类B来说不是最小接口,则类B和类D必须去实现他们不需要的方法。解决方案将臃肿的接口I拆分为独立的几个接口,类A和类C分别与他们需要的接口建立依赖关系。也就是采用接口隔离原则。举例来说明接口隔离原则:图 1 - 未遵循接口隔离原则的设计这个图
转载 2017-12-29 10:35:00
103阅读
2评论
package openClosedPrinciple;/** * 开放封闭原则 *@author LiMing E-mail:1151143484@qq.com *@date 2017年6月11日 上午9:40:34 */public class OpenClosedPrinciple {/**
原创 2022-02-14 16:02:46
63阅读
1、open the VFL device int deviceHandle; char *devicename="/dev/video0"; deviceHandle=open(devicename,O_RDWR); if(deviceHandle==-1) {//fail to open device } 调用成功,返回一个文件标示符;调用失败,返回-1。 2、查询设备属性(opt
转载 2023-08-28 20:47:16
113阅读
转载 2011-12-12 19:25:00
43阅读
2评论
V 4 drbd 一、相关概念:drbd(distributed replicated block device,www.linbit.com,通过网络将不同主机上磁盘中的分区做成镜像,块级别镜像,可理解为主机级别的RAID,默认只能通过一个node挂载,而备node不能挂载使用) DAS(SCSI总线,支持7-16个设备,controller内置在主板上的芯片,adapter
原创 2015-12-06 18:44:57
1860阅读
2019-05-29 20:56:02 一、Inception V1 当不知道在卷积神经网络中该使用1 * 1卷积还是3 * 3的卷积还是5 * 5的卷积或者是否需要进行pooling操作的时候,我们就可以通过inception模块来将所有的操作都做一遍,然后将得到的结果直接concat到一起,由神
转载 2019-05-29 21:19:00
104阅读
2评论
文章目录1、本机配置2、关闭防火墙和SeLinux3、下载达梦数据库4、创建用户和组5、创建安装目录6、配置 dmdba 用户 的环境变量7、解除 dmdba 用户 的资源限制8、上传压缩包解压并挂载镜像9、命令行安装9.1 安装9.2 用root用户执行 /dm8/script/root/root_installer.sh9.3 配置实例9.4 root 注册数据库服务9.5 启动数据库服务9
一、前提和设计目标1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。2、跑在HDFS上的应用与一般的应用不同,它们主要是以流式读为主,做批量处理;比之关注数据访问的低延迟问题,更关键的在于数据访问的高吞吐量。3、HDFS以支持大数据集合为目标,一个存储在上面的典型文件大小
一、Output插件:标准输出到控制台 ### 标准输出到控制台
原创 2022-04-21 13:40:49
188阅读
文章目录产生原因:继承时子类重写引起的问题什么是里氏替换原则举例说明不遵循里氏替换写方法的结果!!!!改...
  • 1
  • 2
  • 3
  • 4
  • 5