一、Hadoop介绍

什么是“hadoop”?
 大数据的概念与应用
 云计算

1.什么是“hadoop”?

Hadoop是大数据的一个总称hadoop Yarn是dadoop2的一个基础框架。
	常用的是hadoop Yarn, 它也是一个开发和运行处理大规模数据的软件平台,
	可编写和运行分布式应用处理大规模数据,是Appach的一个用**java语言实现开源软件框架**。
	实现在大量计算机组成的集群中对海量数据进行分布式计算

2.大数据的概念与应用

1) 大数据是指以多元形式,自许多来源搜集而来的庞大数据组,往往具有实时性。
	在企业对企业销售的情况下,这些数据可能得自社交网络、电子商务网站、顾客来访纪录,还有许多其他来源。
	这些数据,并非公司顾客关系管理数据库的常态数据组。
    2)大数据具有数据规模大,,互联网每天产生的全部内容可以刻满6.4亿张DVD、数据类别复杂、
    数据处理速度快、数据真实性高、数据蕴藏价值的特点,对于大数据的处理和挖掘很大程度上需要**依赖于云计算**
    平台的分布式处理、分布式数据库、云存储和虚拟化技术。

3.云计算?

云计算(Cloud Computing)是分布式计算(Distributed Computing)、并行计算  (Parallel Computing)
    效用计算(Utility Computing)、 网络存储(Network Storage Technologies)、虚拟化(Virtualization)
    负载均衡(Load Balance)、热备冗(High Available)等传统计算机和网络技术发展融合的产物。

云计算分为三类:

SaaS: 软件即服务, 用户无需安装软件, 
       而是用标准客户端(浏览器)即可使用软件服务, 比如Google Docs
 IaaS: 基础设施即服务, 用户无需购买硬件, 
       而是租赁云计算提供商的基础设施, 部署自己的OS, 进行自己的计算, 
       这里的用户一般是商业机构而不是终端消费者. IaaS最有名的提供商是亚马逊的AWS
 PaaS:与IaaS类似, 只是用户不再控制OS, 
      而是利用云计算提供商提供的OS和开发环境做开发.

课堂随笔小记

  1. web容器-容器又可以称作web服务器
  2. 集群:它是多台计算机协作解决问题
    包括: - 负载均衡 (weblogic)
    - 热备
  3. Hodoop中 java语言在jvm中大于c++语言(除hadoop外c++最高)
  4. spark scala python(常用于金融类 效率慢) r ( 比python更慢) —建模模型 y=ax+b ,y=5x-2(一次函数);
  5. json(没转之前信息量较大 ,自身编写较小) 序列化协议 -结构转成String类型 反序列化 struct-String ;
  6. DAS 存储设备只用于与独立的一台主机服务器连接,其他主机不能使用这个存储设备。
    NAS 是通过网页连接
  7. (Duker一切)用于web服务器 并不支持windows系统
  8. Kernel:内核 是一个操作系统的核心。是基于硬件的第一层软件扩充,提供操作系统的最基本的功能,是操作系统工作的基础,负责管理系统的进程、内存、设备驱动程序、文件和网络系统、决定着系统的性能和稳定。
  9. mongoDB:是一个基于分布式文件存储的数据库。由c++语言编写。意在为web应用提供可扩展的高性能数据存储解决方案。它是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。
  10. 集线器:广播模式
  11. 交换机:二层 (独占模式)
  12. 路由器 三层
  13. 拓展:bat b(百度) a(阿里) t(腾讯)