AI 基础什么是AI人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。(百度百科)AI发展畅想图四要素1. 数据(信息)如今这个时代,无时无刻不在产生大数据。移动设备、廉价的照相机、无处不在的传感器等等积累的数据。这些数据形式多样化,大部分都是非结构化数据。如果需要为人工智能算法所用
转载
2023-11-05 00:05:47
143阅读
1.什么是云计算云计算(Cloud Computing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云计算是一种按使用量付费的模式,这种模式是提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池,这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。2.云计算的产生背景云计算是继20世纪80年代大型计算机到
转载
2024-01-19 22:41:23
93阅读
云计算和大数据常常被大家混为一谈!二者有什么区别?好程序员今日解析云计算与大数据的主要区别。 一句话解释二者主要不同:云计算是硬件资源的虚拟化。大数据是海量数据的高效处理。 我们说大数据技术,是从成百上千,各种各样的数据中获取有价值的信息进行数据分析。应用大数据技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统
转载
2023-11-03 12:43:37
125阅读
当你已经准备好实施大数据,请仔细的评估云提供商提供的大数据功能,确保找到最合适的。下面我们来看一下四种云服务产品。当谈到在云端实施大数据战略时,好消息是你会有很多选择。但是,这同时也是一个坏消息。来自Forrester Research最近的一份报告强调,尽管大数据云服务很强大,他们也有可能造成混乱,从而需要企业采用比传统的方式更加灵活,琐碎的方法。该报告的结论是:在云计算领域中没有一种服务是适合
转载
2023-07-30 20:15:25
196阅读
大数据的介绍 第一节:数据 一、概念 数据就是数值,也就是我们通过观察、实验或计算得出的结果。数字、图片、 视频……. 二、分类 1、按照结构分 结构化数据:mysql表中的数据、excel 表、严格的二维表数据。每一行都有相同的列,每一行对应的列的类型一致的。 非结构化数据:没有任何结构的数据,视
转载
2020-07-21 14:32:00
112阅读
2评论
1、MongoDB——最受欢迎的,跨平台的,面向文档的数据库。 mongodb是一个基于分布式文件存储的数据库,使用C++语言编写。旨在为Web应用提供可扩展的高性能数据存储解决方案。应用性能高低依赖于数据库性能,MongoDB则是非关系数据库中功能最丰富,最像关系数据库的,随着MongDB 3.4版本发布,其应用场景适用能力得到了进一步拓展。 MongoDB的核心优势
原创
2022-10-10 20:43:18
100阅读
1.Hadoop是一个大家族,是一个开源的生态系统,是一个分布式运行系统,是基于Java编程语言的架构。不过它最高明的技术还是HDFS和MapReduce,使得它可以分布式处理海量数据。 2.HDFS(分布式文件系统):它与现存的文件系统不同的特性有很多,比如高度容错(即使中途出错,也能继续运行),
原创
2021-07-23 09:51:09
314阅读
1. Azkaban介绍1.1. 为什么需要Azkaban一个完整的数据分析系统通常都是由大量任务单元组成shell脚本程序java程序mapreduce程序hive脚本等各任务单元之间存在时间先后及前后依赖关系, 为了很好地组织起这样的复杂执行计划, 需要一个工作流调度系统来调度执行;例如,我们可能有这样一个需求,某个业务系统每天产生20G原始数据,我们每天都要对 其进行处理...
原创
2022-03-04 16:34:27
123阅读
1. Flume 介绍1.1. 概述Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据,又可以将采集到 的数据(下沉sink)输出到HDFS、hbase、hive、
原创
2022-03-04 16:38:57
81阅读
1:Hadoop介绍
Hadoop是一个分布式系基础框架,它允许使用简单的编程模型跨大型计算机的大型数据集进行分布式处理.
它主要解决两个问题
大数据存储问题: HDFS
大数据计算问题:MapReduce
问题一: 大文件怎么存储?
假设一个文件非常非常大,大小为1PB/a.txt, 大到世界上所有的高级计算机都存储不下,
原创
2022-03-04 17:06:33
132阅读
大数据技术是基于谷歌在2004~2006年发表的3篇论文第一篇论文 GFS 分布式文件系统第二篇论文 MapReduce 分布式计算第三篇论文 HBase 分布式存储Hadoop发展历史:Hadoop到目前为止一共有3个大版本Hadoop1.0Hadoop2.0Hadoop3.0Hadoop1.0 是分布式计算框架基于分布式文件系统,将计算和...
原创
2021-08-05 13:57:15
216阅读
1. Flume 介绍1.1. 概述Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据,又可以将采集到 的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中一般的采集需求,通过对flume的简单配置即可实现Flume针对特殊场景也具备良好的自定...
原创
2021-08-18 02:41:12
294阅读
1:Hadoop介绍Hadoop是一个分布式系基础框架,它允许使用简单的编程模型跨大型计算机的大型数据集进行分布式处理.它主要解决两个问题 大数据存储问题: HDFS 大数据计算问题:MapReduce问题一: 大文件怎么存储?假设一个文件非常非常大,大小为1PB/a.txt, 大到世界上所有的高级计算机都存储不下, 怎么办?为了保存大文件, 需要把文...
原创
2021-08-18 10:41:04
176阅读
RAID介绍
原创
2022-10-16 16:06:36
51阅读
1. Azkaban介绍1.1. 为什么需要Azkaban一个完整的数据分析系统通常都是由大量任务单元组成shell脚本程序java程序mapreduce程序hive脚本等各任务单元之间存在时间先后及前后依赖关系, 为了很好地组织起这样的复杂执行计划, 需要一个工作流调度系统来调度执行;例如,我们可能有这样一个需求,某个业务系统每天产生20G原始数据,我们每天都要对 其进行处理...
原创
2021-08-18 10:39:44
160阅读
昨天有两件事在群里引起了热聊。一件是51信用卡,大家都心知肚明,我就是51信用卡的资深用户之一。第二件事就是我今天要说的码云碰瓷马云。马爸爸退休有一段时间了,但是首富的光环让多数人都想蹭蹭他的热度。不光如此,创业公司,中小型互联网公司都想和BAT扯上关系。码云昨天硬碰瓷就是想免费上头条。昨天很多网友通过gitee.com的域名访问码云,但是最终发现无法访问,于是各个群,微博都热闹起来了。很多人以为
原创
2021-03-18 21:39:32
777阅读
了解大数据各种技术之间的关系,选择合适的语言。我们可以带着下面问题来阅读本文章:1....
转载
2022-10-20 23:23:58
94阅读
大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来。司与hadoop的关系是什么,都有什么产品,产品有...
原创
2023-07-24 18:08:25
119阅读
0.云与云计算概念云:云是一种平台模式,将资源汇聚,以服务方式向外提供云计算:云计算是一种计算模式,一种什么样的计算模式呢?云计算是一种将①动态伸缩的②虚拟化资源③通过互联网④以服务的方式提供给用户的计算模式1.云原生(cloud native)计算、存储、架构都是土生土长在云上,称为云原生 4个要点:①DevOps ②持续交付 ③微服务 ④容器 云原生是基于云基础之上的软件架构思想,以及基于云进
转载
2023-12-16 14:24:52
94阅读
1、什么是大数据百度百科描述:大数据(bigdata)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。IBM提出了大数据的5V特征:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)。个人理解:大数据是在信息数据
转载
2023-07-11 16:10:17
180阅读