环境准备我使用的是vmware workstation,首先安装ubuntu 12.04,安装完成后通过vmware的clone
原创 2022-03-29 14:31:15
61阅读
修改/etc/hosts  /etc/hostname /etc/sysconfig/network 中的主机名 1.安装jdk,配置环境变量(1./etc/profile,2.hadoop/conf/hadoop-env.sh) 直接执行之前写好的脚本2.安装ssh 、rsync yum install ssh3.解压hadoop.tar.gz  (可创建软连接:#
原创 2016-06-04 13:13:21
616阅读
任务目的重点掌握Hadoop的核心组件 了解Hadoop的发展历史及其生态体系 熟记Hadoop的主要特性任务清单任务1义业务逻辑,对海量数据进行分布式处理;  “处理”什么问题?  海量数据的存储和海量数据的分析计算问题。也就是
转载 2022-08-02 14:37:02
187阅读
1. 部署环境系统:  CentOS 6.3需要安装jdk.JDK的RPM下载地址: http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.htmlhadoop手册地址: http://hadoop.apache.org/docs/r1.2.1/index.html关闭iptables
原创 精选 2014-11-25 22:04:09
1043阅读
目录说明      在编译之前,我们需要先下载后hadoop 1.2.1的源码文件,并解压到合适的位置。目录结构如下:Eclipse: D:\eclipseHadoop: D:\hadoop-1.2.1Step1导入 Hadoop-eclipse 插件工程1. 下载hadoop-1.2.1.tar.gz,并解压缩到 D盘根目录下2. 在 Eclip
原创 2016-06-04 13:21:18
691阅读
1. 部署环境系统:  CentOS 6.3需要安装jdk.JDK的RPM下载地址: http://www.oracle.com/technetwork/java/javase/downlo
转载 2023-08-24 09:51:10
50阅读
1.Hadoop集群尽量采用ECC内存,否则可能会出现校验和错误,ECC内存有纠错功能。在磁盘方面,尽管namenode建议采用RAID以保护元数据,但是将RAID用于datanode不会给HDFS带来益处,速度依然比HDFS的JBOD(Just a Bunch Of Disks)配置慢。RAID读写速度受制于最慢的盘片,JBOD的磁盘操作都是独立的。而且JBOD配置的HDFS某一磁盘故障可以直接
转载 2024-05-16 21:01:32
23阅读
Hadoop介绍: Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。安装三台虚拟设备 在里面我建议大家选择性能稳定的合适的linux版本进行安装,一般要进行初级学习的话,暂时三台虚拟机就够学习使用了。网络ip设置 首先,选择虚拟机为net模式,看准当前网关和虚拟机能分配的网段。
转载 2023-08-21 10:35:01
80阅读
本案例软件包:链接:https://pan.baidu.com/s/1ighxbTNAWqobGpsX0qkD8w 提取码:lkjh(若链接失效在下面评论,我会及时更新) 搭建环境:hadoop-3.1.3,jdk1.8.0_162一、HA模式简介Hadoop的HA模式是在Hadoop全分布式基础上,利用ZooKeeper等协调工具配置的高可用Hadoop集群。 如果还没有配置全分布式的Hadoo
转载 2023-07-12 12:57:35
124阅读
配置文件首先复制样例到指定目录cd /usr/share/doc/heartbeat-3.0.4/cp ha.cf authkeys haresources /etc/ha.d/cd /etc/ha.d/1.首先编辑authkeys  #用来主从验证通讯,对方是否存活。而且是加密通讯。vim authkeys其中123代表加密程度,1最简单,2md5复杂,3sha最复杂#auth 1#1
原创 2015-10-16 23:03:53
513阅读
简介  Hadoop 是 Apache 旗下的一个用 java 语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。它的核心组件有HDFS(分布式文件系统)解决海量数据存储、YARN(作业调度和集群资源管理框架)解决资源任务调度和MapReduce(分布式运算编程框架)解决海量数据计算。另外Hadoop如今拥有一个庞大
转载 2023-09-22 12:57:04
55阅读
写在前面:在本教程中,默认虚拟机系统已配置好hadoop和JDK,并且集群之间的免密登录已经完成。这里我的hadoop版本号为hadoop-2.10.0,记得要全部替换为你自己的版本号哦
HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,而mapreduce必须放在一个资源调度平台(yarn)上来跑,由平台分布内存cup等信息。两者逻辑上分离,但物理上常在一起 HDFS集群: 负责海量数据的存储,集群中的角色主要有 NameNode / DataNode YARN集群: 负责海量数据运算时的资源调度,集群中的角色主要有 ResourceManager /No
转载 2023-09-20 11:59:47
101阅读
Hadoop介绍Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。狭义上说,Hadoop指Apache这款开源框架,它的核心组件有:HDFS(分布式文件系统):解决海量数据存储YARN(作业调度和集群资源管理的框架):解决资源任务调度MAPREDUCE(分布式运算编程框架
转载 2023-07-30 15:53:33
109阅读
Hadoop的优势有四高:(1) 高可用: Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元 素或存储出现故障,也不会导致数据的丢失(2) 高扩展: 在集群间分配任务数据,可方便的扩展数以千计的节点(3) 高效性:  在MapReduce的思想下,Hadoop是并行工作的,以加快任务处 理速度(4) 高容错性:  能够自动将失败的任
转载 2023-07-24 13:56:11
223阅读
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。当然在百度百科上这种方法在Nutch1.2之后,已经不再适合这样描述Nutch了,因为在1.2版本之后,Nutch专注的只是爬取数据,而全文检索的部分彻底的交给Lucene和Solr,ES来做了,当然因为他们都是近亲关系,所以Nutch抓取完后的数据,非常easy的就能生成全文索
转载 2022-12-05 09:45:30
96阅读
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。当然在百度百科上这种方法在Nutch1.2之后,已经不再适合这样描述Nutch了,因为在1.2版本之后,Nutch专注的只是爬取数据,而全文检索的部分彻底的交给Lucene和Solr,ES来做了,当然因为他们都是近亲关系,所以Nutch抓取完后的数据,非常easy的就能生成全文索
转载 2017-09-22 17:17:35
672阅读
端午节,无聊试试,hadoop集群。部署成功,相关资料,记录下来,仅供自己参考~master 192.168.234.20node1 192.168.234.21vi /opt/modules/hadoop/hadoop-1.0.3/conf/core-site.xmlvi /opt/modules/hadoop/hadoop-1.0.3/conf/hdfs-site.xmlvi /opt/mod
原创 2013-06-15 23:44:13
924阅读
作者 岑文初 发布于 2008年8月7日 下午1时39分 Java 主题 网格计算 , 集群与缓存 标签 Hadoop ── 分布式计算开源框架Hadoop入门实践(二) 其实参看Hadoop官方文档已经能够很容易配置分布式框架运行环境了,不过这里既然写了就再多写一点,同时有一些细节需要注意的也说明一
转载 2023-08-04 11:08:54
42阅读
生而有涯而学无涯最近使用VMWare搭建了一个虚拟的Hadoop集群环境,搭建的过程中参考了很多网上大神的资料,在这里记录下本人实践的全过程,用于以后的查询参考使用,参考的资料会在文末贴出对应的链接。集群配置详情hostnameip addressos(Centos7mini)master192.168.224.100Centos7(mini)slave1192.168.224.201Centos
转载 2023-07-12 15:42:12
183阅读
  • 1
  • 2
  • 3
  • 4
  • 5