一、Hadoop介绍
什么是“hadoop”?
大数据的概念与应用
云计算
1.什么是“hadoop”?
Hadoop是大数据的一个总称hadoop Yarn是dadoop2的一个基础框架。
常用的是hadoop Yarn, 它也是一个开发和运行处理大规模数据的软件平台,
可编写和运行分布式应用处理大规模数据,是Appach的一个用**java语言实现开源软件框架**。
实现在大量计算机组成的集群中对海量数据进行分布式计算
2.大数据的概念与应用
1) 大数据是指以多元形式,自许多来源搜集而来的庞大数据组,往往具有实时性。
在企业对企业销售的情况下,这些数据可能得自社交网络、电子商务网站、顾客来访纪录,还有许多其他来源。
这些数据,并非公司顾客关系管理数据库的常态数据组。
2)大数据具有数据规模大,,互联网每天产生的全部内容可以刻满6.4亿张DVD、数据类别复杂、
数据处理速度快、数据真实性高、数据蕴藏价值的特点,对于大数据的处理和挖掘很大程度上需要**依赖于云计算**
平台的分布式处理、分布式数据库、云存储和虚拟化技术。
3.云计算?
云计算(Cloud Computing)是分布式计算(Distributed Computing)、并行计算 (Parallel Computing)
效用计算(Utility Computing)、 网络存储(Network Storage Technologies)、虚拟化(Virtualization)
负载均衡(Load Balance)、热备冗(High Available)等传统计算机和网络技术发展融合的产物。
云计算分为三类:
SaaS: 软件即服务, 用户无需安装软件,
而是用标准客户端(浏览器)即可使用软件服务, 比如Google Docs
IaaS: 基础设施即服务, 用户无需购买硬件,
而是租赁云计算提供商的基础设施, 部署自己的OS, 进行自己的计算,
这里的用户一般是商业机构而不是终端消费者. IaaS最有名的提供商是亚马逊的AWS
PaaS:与IaaS类似, 只是用户不再控制OS,
而是利用云计算提供商提供的OS和开发环境做开发.
课堂随笔小记
- web容器-容器又可以称作web服务器
- 集群:它是多台计算机协作解决问题
包括: - 负载均衡 (weblogic)
- 热备 - Hodoop中 java语言在jvm中大于c++语言(除hadoop外c++最高)
- spark scala python(常用于金融类 效率慢) r ( 比python更慢) —建模模型 y=ax+b ,y=5x-2(一次函数);
- json(没转之前信息量较大 ,自身编写较小) 序列化协议 -结构转成String类型 反序列化 struct-String ;
- DAS 存储设备只用于与独立的一台主机服务器连接,其他主机不能使用这个存储设备。
NAS 是通过网页连接 - (Duker一切)用于web服务器 并不支持windows系统
- Kernel:内核 是一个操作系统的核心。是基于硬件的第一层软件扩充,提供操作系统的最基本的功能,是操作系统工作的基础,负责管理系统的进程、内存、设备驱动程序、文件和网络系统、决定着系统的性能和稳定。
- mongoDB:是一个基于分布式文件存储的数据库。由c++语言编写。意在为web应用提供可扩展的高性能数据存储解决方案。它是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。
- 集线器:广播模式
- 交换机:二层 (独占模式)
- 路由器 三层
- 拓展:bat b(百度) a(阿里) t(腾讯)