大数据之基_51CTO博客

大数据技术之hadoop 大数据技术之zookeeper

简述Zookeeper 是一个开源的分布式的，为分布式框架提供协调服务的 Apache 项目。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。zookeeper工作机制Zookeeper从设计模式角度来理解：是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接受观察者的注册，一旦这些数据的状态发生变化，Z

大数据技术之hadoop

1024程序员节

java

zookeeper

数据

转载

archangle

2024-07-04 17:27:56

60阅读

大数据：分享大数据之基础语法1计算机理论介绍2编程基础--进制分类、进制转换进制就是进位制。指的是我们来表示一个数字的时候进位的制度。进制分类计算机中，常用的进制有以下几种:进制描述示例备注二进制使用0和1来描述所有的自然数0,1,10,11,100,101使用0b开头八进制使用0-7来描述所有的自然数4,5,6,7,10,11,12使用0开头十进制使用0-9来描述所有的自然数6,7,8,9,10

大数据

大数据培训

好程序员

原创

千锋教育培训

2020-03-11 16:37:46

1750阅读

大数据之Flink

一、什么是FlinkFlink起源于德国柏林工业大学、柏林洪堡大学和哈索普拉特纳的博士生和研究生联合开展的项目。Flink是一个分布式流和批处理数据结合的统一计算框架，其核心是一个提供了数据分发以及并发化计算的流数据处理引擎。Flink在流引擎之上构建批处理，覆盖本机迭代，托管内存和程序优化。二、数据流开发流程1.抽象层次SQL

java

原创

mb5fdb128f2dba9

2021-03-07 20:28:14

677阅读

大数据之presto

大数据之presto　　默认的配比是query.max-memory-per-node的值在jvm重点的Xmx的10%左右即可。　　　presto官网　　https://prestodb.io/docs/current/release/release-0.215.html　日常维护：　　1、问题：maxRequestsQueuedPerDestinatio　　日

bigdata

html

facebook

解决方案

原创

林海峰4573

2022-06-13 10:45:20

614阅读

大数据之Redis

1、Redis概述  Redis是一个开源，先进的key-value存储，并用于构建高性能，可扩展的应用程序的完美解决方案。  Redis的三个主要特点：  Redis数据库完全在内存中，使用磁盘仅用于持久性。  相比许多键值数据存储，Redis拥有一套较为丰富的数据类型。String，Li ...

redis

持久化

数据类型

数据集

大数据

转载

mob604756e85b28

2021-08-11 11:00:00

207阅读

2评论

大数据之sqoop

一、安装： 1 解压然后把mysql的驱动放在$SQOOP_HOME/lib 目录中2. conf/sqoop-en.sh export HADOOP_COMMON_HOME=/home/hadoop/hadoop/hadoop-2.3.0export HADOOP_MAPRED_HOME=/home/hadoop/hadoop/hadoop-2.3.0 注意事项 1.数据库驱动：在执行s...

大数据

原创

chaoren399

2021-07-29 10:47:17

756阅读

大数据之ospf

在当今数字化时代，大数据已经成为企业发展的必争之地。作为全球领先的信息通信解决方案供应商，华为一直致力于为客户提供可靠、高效的大数据解决方案。其中，OSPF作为大数据网络的核心协议之一，发挥着至关重要的作用。 OSPF(Open Shortest Path First)是一种链路状态路由协议，用于在大规模IP网络中自动计算路由信息。在大数据网络中，OSPF可以帮助数据中心实现高速、高效的数据传输

OSPF

解决方案

大数据

原创

风中追风111

2024-03-05 12:08:21

30阅读

大数据之HDFS

HDFS

大数据

hdfs

apache

hadoop

原创

大数据同盟会

2022-01-12 15:58:30

99阅读

大数据之Hadoop

hadoop：是一个开源软件平台，它本身不能完成特定功能，但是可以利用服务器集群，对海量数据进行分布式处理。一、hadoop组件：HDFS(分布式文件系统)； YARN(运算资源调度系统)； Mapreduce(分布式运算编程框架)；二、点击流框架分析：数据采集：定制开发采集程序，或使用开源框架FLUME;数据预处理：定制开发mapreduce程序运行于hadoop集群;数据仓库技术：基于hado

hadoop

hdfs

apache

原创

大数据同盟会

2022-04-22 10:22:53

127阅读

大数据之Mapreduce

Mapreduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架。Mapreduce分布式运算程序往往分2个阶段：map阶段：并发实例，各司其职，互不干涉，完全并行； reduce阶段：并发实例，互补干涉，但它们的数据依赖上一个阶段实例输出； mrapplication master 负责监管map和reduce。Mapreduce实现两个表的join:方式

mapreduce

combinator

hadoop

apache

原创

大数据同盟会

2022-04-22 10:31:09

79阅读

大数据之数据采集

当你真心渴望追求某种事物的话，整个宇宙都会联合起来帮你完成。——牧羊少年奇幻之旅

大数据

数据

结构化

数据库

原创

学思共进

2023-08-07 11:08:04

227阅读

大数据之排序

例如：假设要对8亿个正整数进行排序（000000000-999999999），该如何操作？分析：首先，确认这些数是不是不重复的，这点很重要，8亿个9整数占用内存很庞大，用计算机直接一次性进行处理显然不现实，800,000,000*4Byte=3.0G。为此可以利用Bloom Filter建立N个哈希函数的映射集；或者使用导入数据库的方法；还可以使用bit位的方法...... 1、分段排序

排序

大数据

原创

maofuhui

2013-04-14 11:19:35

883阅读

1点赞

大数据之sqoop

4 大数据协作框架之sqoop Hadoop 2.x HDFS YARN MapReduce Zookeeper Hive 对日志类型的海量数据 hdfs mr, hive - hql 一、面临的问题第一个问题：hdfs 文件来源于哪里？数据怎样存储到hdfs ？海量现实中的数据来源于两个方 ...

大数据

sqoop

hive

hdfs

hadoop

转载

mob604757008d56

2021-09-22 18:18:00

134阅读

2评论

大数据之hodoop

大数据主要解决： 大数据的特点： nameNode就像是目录相当于实实在在的数据辅助nameNode工作。HDFS负责文件的存储 YARN：节点=服务器/电脑整个集群资源的老大：整个集群中单个节点的老大：

hadoop

大数据

服务器

数据

原创

mb6375a8794a550

2022-11-21 06:58:13

229阅读

大数据之nutch

一、nutch简介 nutch是大名鼎鼎的Doug Cutting发起的爬虫项目，nutch孵化了现在大数据处理框架Hadoop。在nutch V 0.8.0 版本之前，Hadoop是nutch的一部分，从nutch V0.8.0开始，HDFS和MapReduce从nutch中剥离出成为Hadoop。v0.8.0之后，nutch就完全构建在Hadoop的基础之上了。 Nutch是一个开源的网络爬...

干货

原创

chaoren399

2021-07-29 10:42:43

455阅读

大数据之Logstash

Logstash是一款开源的数据收集引擎，具备实时管道处理能力。简单来说，logstash作为数据源与数据存储分析工具之间的桥梁，结

kafka

数据

elasticsearch

原创

大数据同盟会

2022-01-12 15:41:34

125阅读

大数据之YARN

yarn: 运算资源（jar包、内存、cpu、配置文件）调度系统。一、mapreduce提交job运行在yarn流程：yarn的调度机制有：队列（先进先出）、fair、capacity;yarn只负责程序运行所需资源的分配回收等调度任

yarn

mapreduce

hadoop

apache

ide

原创

大数据同盟会

2022-01-12 15:49:22

71阅读

大数据之Hadoop

hadoop：

hadoop

hdfs

java

原创

大数据同盟会

2022-01-12 15:59:26

224阅读

大数据之Logstash

Logstash是一款开源的数据收集引擎，具备实时管道处理能力。简单来说，logstash作为数据源与数据存储分析工具之间的桥梁，结合ElasticSearch以及Kibana，能够极大方便数据的处理与分析。通过200多个插件，logstash可以接受几乎各种各样的数据。包括日志、网络请求、关系型数据库、传感器或物联网等.Logstash工作过程如上图，Logstash的数据处理过程主要包括：

kafka

数据

elasticsearch

原创

大数据同盟会

2022-04-22 10:06:04

98阅读

大数据之Spark

Spark是一种快速、通用、可扩展的大数据计算引擎，是MapReduce的替代方案，而且兼容HDFS、Hive，可融入Hadoop的生态系统，以弥补MapReduce的不足。Spark特点：1、快，与MapReduce相比，Spark基于内存的运算要快100倍以上；2、易用，支持Java、Python和Scala的API，还支持超过80种高级算法；3、通用，可以用于批处理、交互式查询（Spar

spark

hadoop

scala

原创

大数据同盟会

2022-04-22 10:08:02

189阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

大数据之基

大数据技术之hadoop 大数据技术之zookeeper

大数据：分享大数据之基础语法

大数据之Flink

大数据之presto

大数据之Redis

大数据之sqoop

大数据之ospf

大数据之HDFS

大数据之Hadoop

大数据之Mapreduce

大数据之数据采集

大数据之排序

大数据之sqoop

大数据之hodoop

大数据之nutch

大数据之Logstash

大数据之YARN

大数据之Hadoop

大数据之Logstash

大数据之Spark

大数据之HBase

大数据之Akka

大数据之Redis

大数据之HDFS

大数据入门之什么是大数据?

大数据之hadoop

大数据之sqoop

大数据之Ganglia

大数据之Spark