//书非借不能读也,今早从图书馆新书阅览室借来《Hadoop in Action》,最长借期7天。整理读书笔记并留下电子版以供以后方便复习。
Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据。专为离线处理和大规模数据分析而设计,避免耗时的数据传输问题,适合一次写入,多次读取。
特性:方便、健壮、可扩展、简单。
MapReduce
转载
2023-12-15 10:48:50
54阅读
记录一下收获和感想
原创
2013-07-21 01:03:03
255阅读
点赞
【项目管理培训后的收获和感想】
自从我决定攻读PMP(项目管理专业)认证,我的生活仿佛被打开了一个全新的维度。经历了数月的艰苦备考,我终于成功地通过了PMP考试。然而,这只是开始,因为要保持这个认证的有效性,我需要在接下来的每三年内获得60个PDU(专业发展单位)。
PMP考试不仅是对项目管理知识的检验,更是对实际应用能力的考察。考试时长230分钟,虽然时间看似充裕,但要完成180道选择题并不
原创
2023-11-29 10:28:45
106阅读
这次参加了软酷网的hadoop开发院为期四天的培训,怎么说呢,感觉¥6999 不太值,不做测试呗!~...
原创
2022-11-22 00:04:24
73阅读
JavaScript是一门重要的语言,它是流行的web浏览器语言,我觉得这是与浏览器结合的最流行的语言。在TIOBE语言中从2010的12名上升到2011的11名,排除Java,C,C++,C#,VB,PHP等,这些都不能比较,应用的领域不同。js也是最被轻视的语言,它不是非主流语言。它的一些语言特性会让一些不懂js的人放大其为缺点。js也确实往往令人惊异,了解它后就知道它极强的表达能力。我对js
转载
2023-07-22 15:20:10
138阅读
1、项目描述 通过对黑马技术论坛的apache common日志进行分析, 计算论坛关键指标,供运营者决策。 2、数据情况 每行记录有5部分组成: 1.访问ip 2.访问时间 3.访问资源【跟着两个访问的Url】 4.访问状态 5.本次流量 截取部分数据如下:27.19.74.143 - - [30/May/2013:17:38:21 +0800] "GET /static/i
看完了一本《设计模式解析》(第二版,徐言生译),现在闭上眼睛能搞明白的几种模式:
工厂,工厂方法,抽象工厂,桥模式,装饰,facade,适配,观察者,策略,单例。
感觉这本书后面翻译的没有前面好,不知道是我看累了还是译者翻译累了。。
很赞同书中125页的一段话
&nb
原创
2012-04-10 12:11:36
1003阅读
hadoop.tmp.dir /opt/data/hadoop-3.1.3 hadoop.http.staticuser.user root
hadoop.proxyuser.root.hosts * hadoop.proxyuser.root.groups *
fs.trash.interval 1440 配置hdfs-site.xml(记得要放在两个configuration中间
转载
2024-10-07 13:33:13
33阅读
前几天在今日头条上看到一则广告,于是交了8.9元学费(还有不少是0学费的体验课),参加了小咖编程的一个四天(每天大概要用二小时左右),是Python的入门语法课,老师叫喵酱(教义做的非常棒)。偶然头回接触Python,学习的点点收获汇报如下。第一关开启星际迷航(进入Python新世界,了解print()输出函数的作用)1、Python是一门编程语言,我们通过编程语言来完成与计算机之间的交流
转载
2023-08-21 15:29:45
51阅读
还没有接触Python时,我以为这门语言会和C++有着天壤之别,但当我真正开始接触它时,才发现,Python与C++非常相似却又非常不同,刚上手时,Python给我的第一感受就是舒服,自我感觉它比C++更容易上手,虽然之前一直在学习C++,但却没有一点不适应,Python给我的感觉就是非常的简洁,且跑出来的程序还非常高效与完整,正对应了“Python之禅”里的"Beautiful is bett
HDFS文件操作你可以把一个大数据集(100TB)在HDFS中存储为单个文件,而大多数其他的文件系统无力实现这一点。虽然该文件存在多个副本分布在多台机器上来支持并行处理,你也不必考虑这些细节。 HDFS (Hadoop Distribution File System)文件系统到底是一个怎样的文件系统?并不是一个Unix文件系统,不支持像ls和cp这种标准的Unix文件命令,也不支持如
转载
2024-01-21 11:55:53
42阅读
背景一般大公司的机器学习团队,才会尝试构建大规模机器学习模型,如果去看百度、头条、阿里等分享,都有提到过这类模型。当然,大家现在都在说深度学习,但在推荐、搜索的场景,据我所知,ROI并没有很高,大家还是参考wide&deep的套路做,其中的deep并不是很deep。而大规模模型,是非常通用的一套框架,这套模型的优点是一种非常容易加特征,所以本质是拼特征的质和量,比如百度、头条号称特征到千亿
Hadoop能干嘛?目前我能知道的就是数据统计,比如说日志分析,数据分析,以前用数据库进行的统计,因为数据量越来越大,分析就越来越慢。Hadoop则是解决这样的问题,将一些一次写入多次读取的数据进行分布式计算统计,不但速度更快,而且能力更强(因为统计过程可以用代码逻辑,而SQL则弱得多)大数据与Hadoop说得很玄乎,从上面的概念来说,其实就是规模庞大的一次写入多次读取的数据,这些数据按照统计
转载
2023-10-25 12:39:34
163阅读
hadoop、zookeeper、spark集群配置:1. 软件版本:2. 配置环境变量: 我环境变量放在自定义文件中/etc/profile.d/my_env_sh中,配置有jdk、hadoop、spark、scala、zookeeper3. hadoop配置: 我的hadoop版本是3.1.4 在目录/opt/module/hadoop-3.1.4/etc/hadoop下,我配置了core-s
转载
2024-04-20 20:11:29
54阅读
在上java课程之前,我其实是很担心的,担心自己能不能学好这门课程。因为之前上过C语言和数据结构,对于我来说C语言还好,但是数据结构就有点头痛。所以很担心会不会学不好java。但学了这么久,我觉得,我的担心是多余的。 我个人认为,java对于我来说是完全ok的难度。首先是编译软件上的区别,eclipse他会在你编译的过程中帮你找出错误,通常情况下,写完一个类或者是一个方法,
转载
2023-06-28 14:27:19
92阅读
# Hadoop课程设计收获
在大数据时代,Hadoop作为一个开源的分布式计算平台,逐渐成为数据分析和处理的主流工具。Hadoop的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce。通过这门课程的学习与设计项目,我深入理解了Hadoop的工作原理及其应用场景,并掌握了基本的编程技术。以下是我在Hadoop课程设计中的收获与心得。
##
在学习hadoop之前,我就明确了要致力于大数据行业,成为优秀的大数据研发工程师的目标,有了大目标之后要分几步走,然后每一步不断细分,采用大事化小的方法去学习hadoop。下面开始叙述我是如何初学hadoop的。 hadoopHadoop学习两步走:linux学习、hadoop学习。在接触hadoop之前我有java基础,为此我的计划是首先学习Linux,然后学习hadoop生态系统,
转载
2023-11-23 10:11:04
175阅读
现在在脑海过一遍以下问题,是否能够回忆清楚(后附解析参考) 1. HDFS读流程和写流程? 2. NameNode和Secondary NameNode工作机制? 3. HA NameNode如何工作? 4. DataNode工作机制? 5. DataNode数据损坏怎么办? 6.&nbs
转载
2024-10-11 15:57:27
27阅读
目录Hadoop分布式计算实验踩坑实录及小结踩坑实录Hadoop学习Hadoop简介HDFSSome conceptsMapReduce主要配置文件集群搭建来源与引用 Hadoop分布式计算实验踩坑实录及小结踩坑实录单机jdk配置Ubuntu下安装jdk11,不熟悉apt-get的默认目录及目录配置,直接在Oracle找了Linux的压缩包在虚拟机上解压,解压到指定目录后配一下java环境变量。
转载
2024-04-13 09:54:36
23阅读
根据我对hadoop应用的理解,对之前的总结进行了完善,都是些个人看法和总结。我认为整个框架包含如下几个部分:第一部分:hadoop文件系统第二部分:编写自己的MR计算实现第三部分:hadoop的扩展性第四部分:集群管理第五部分:调度系统第六部分:第三方工具使用第一部分各知识点分布:第一:主要掌握各文件系统的具体实现和使用第二:文件系统基本操作第三:压缩模式的使用和编写自定义的压缩模式第四:序列化
转载
2023-10-15 21:09:30
76阅读