1 SQL娴熟,这体现在ETL的hive阶段,自定义函数,分析函数,SQL各种关联写 (类dba倾向) 2 hive SQL优化要
原创 2023-04-21 00:37:37
116阅读
# 大数据与Hadoop的心得 在现代信息技术迅猛发展的背景下,大数据技术逐渐成为各个行业关注的焦点。作为一个广泛使用的大数据处理框架,Apache Hadoop 决定了大数据处理的效率和便利性。在这篇文章中,我将分享一些关于 Hadoop 的心得,包括它的核心组件、一些常见的使用场景,以及代码示例,帮助初学者更好地理解和应用 Hadoop。 ## Hadoop 概述 Hadoop 是一个大
原创 10月前
101阅读
大数据学习心得
原创 2019-11-27 22:32:13
1148阅读
在当今这个信息化浪潮汹涌的时代,大数据无疑已经至各行各业的血脉之中,成为推动社会进步的关键力量。而在对大数据技术的深入探索中,Hadoop如同一把钥匙,为我们打开了通往智慧殿堂的大门。本文旨在分享我在Hadoop学习过程中的心得体会,以期能为广大学习者提供一些宝贵的启示与参考。 在Hadoop的学习之旅中,我并未过分沉溺于YARN和HDFS的底层细节探究,而是将更多的精力倾注于MapReduce的
原创 2024-06-18 14:40:30
475阅读
2点赞
  首先我们要学习Python语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后。   Python:Python 的排名从去年开始就借助人工智能持续上升,现在它已经成为了语言排行第一名。   从学习难易度来看,作为一个为“优雅”而生的语言,Python语法简捷而清晰,对底层做了很好的封装,是一种很容易上手的高级语言。在一些习惯于底层程序开发的“硬核”程序员眼里,Python
04 | 移动计算比移动数据更划算那么如何解决 PB 级数据进行计算的问题呢?这个问题的解决思路其实跟大型网站的分布式架构思路是一样的,采用分布式集群的解决方案,用数千台甚至上万台计算机构建一个大数据计算处理集群,利用更多的网络带宽、内存空间、磁盘容量、CPU 核心数去进行计算处理。既然数据是庞大的,而程序要比数据小得多,将数据输入给程序是不划算的,那么就反其道而行之,将程序分发到数据所在的地方进
在这篇博文中,我想和大家分享我的“大数据 Hadoop 实训心得”,主要围绕版本对比、迁移指南、兼容性处理、实战案例、排错指南以及生态扩展这几个方面进行深入探讨。 ### 版本对比 首先,让我们来看一下 Hadoop 的各个版本之间的特性差异。这对于理解不同版本之间的功能增强、性能优化以及适用场景十分重要。 ```mermaid quadrantChart title 特性差异四象限
原创 6月前
18阅读
大数据hadoop部署实验一、数据预处理先将要处理的CSV文件通过x-shell传到Ubuntu中 (1) 删除文件第一行字段#查询前十行 head -10 small_user.csv#删除第一行 sed -i '1d' small_user #再次查询前十行 head -10 small_user.csv (2)删除每行读取的文件第四个字段 、保留完整的时间格式,2014-12-12,删除每行
转载 2023-10-15 19:20:25
115阅读
# Hadoop大数据实训心得 大数据时代,无论是商业,科学还是社会生活,数据的规模与复杂性都在不断增加。作为一种流行的大数据处理框架,Hadoop通过其分布式处理能力,帮助我们更好地管理和分析数据。最近我参加了一次关于Hadoop的大数据实训,实践和学习的过程让我受益匪浅。在这里,我分享一下我的心得和经验。 ## Hadoop简介 Hadoop是由Apache Software Found
原创 2024-09-29 06:00:33
277阅读
新年,公司开始建设大数据中心项目,因此架构组需要对相关技术进行研究。原先对大数据相关技术已有耳闻,但是实际项目没用,很少去深入关注。这里先把一些技术的理解记一下: 1.hadoop 我的理解是一个大数据处理框架,包括了hdfs, hbase, yarn, hive, zookeeper等一堆技术,其中的处理算法是MapReduce. 2.hdfs 是海
HadoopHadoop基本概念Hadoop是一个由Apache基金会所开发的分布式系统基础架构,是用Java语言开发的一个开源分布式计算平台,适合大数据的分布式存储和计算平台。Hadoop是目前比较常见的大数据支撑性平台,Hadoop平台提供了分布式存储(HDFS)、分布式计算(MapReduce)、任务调度(YARN)、对象存储(Ozone)和组件支撑服务(Common)。Hadoop的框架最
搭建平台:hadoop+hdfs+mapreduce+hive+derby;软件:前端+后端数据库;构思:hadoop+hdfs+mapreduce负责分布式存储和并行计算;hive负责处理数据库访问操作;derby负责存储元数据问题1:不清楚这几个模块如何架设,如何联系起来,甚至不知道各个模块是否配置成功。问题2:不知道这几个模块的文件如何存放,以及如何相互访问。问题3:不知道对这类问题怎么入手
转载 2023-09-20 10:52:28
109阅读
写了几年代码,看到这些年大数据,AI闹得火热火热,也想系统学习下大数据方面的东西,给自己充电一下。其实随着IT技术的发展,我们行业(地理信息)也已经开始拥抱大数据了。越来越多的带有位置的非结构化的数据需要处理,需要进一步挖掘。好了,废话不多说了。下面开始分享下,学习大数据这门过程中的一些心得。其实,大数据这门课,学起来还是得要有些知识储备的,比如最基本的linux操作,以及操作hive以及mysq
原创 2018-01-09 11:24:38
2029阅读
1点赞
4评论
# 大数据基于Hive实训心得 随着科技的不断发展,大数据已经成为现代企业不可或缺的部分。尤其是在数据分析和挖掘上,Hive作为一个基于Hadoop的数据仓库工具,发挥着越来越重要的作用。通过Hive,我们能够有效地处理和分析海量数据,这也让我在实训过程中有了深刻的体验。本文将分享我在Hive实训中的心得体会,并结合一些简单易懂的代码示例,帮助读者更好地理解Hive的使用。 ## Hive简介
原创 9月前
53阅读
    从2月28号开始报名大数据微专业,到4月29号看完最后模块的视频。两个月的时间,收获非常大。早在上班的时候就对大数据的技术非常好奇,后来考了研,终于有时间和机会来系统地学习。由于我不是cs本科出身,在报名这门课之前,我自己学习了很多前置知识,比如linux,数据库,java,python。我能在比较短的时间内完成这门课的学习主要得归功于前置知识的掌握
原创 2018-05-15 10:41:57
823阅读
1点赞
原创于2008年04月07日,2009年10月18日迁移至此。对于数据仓库而言,其组织结构如何构建关系到数据仓库项目的成败,为此我们需要理解到以下原则:1.          一把手原则数据仓库项目是为决策支持系统服务的,因此没有高层管理 数据仓库项目必须要经常协调各种相互矛盾的需求,必须有一个仲裁者或者企业最高决策人
1. 场景:   现在人产生数据越来越快,机器则更快,所以需要另外的一种处理数据的方法。   硬盘容量增加,但是性能没跟上,解决办法是将数据分到多块硬盘,然后同时读取。   问题:     硬件问题 -- 复制数据  解决(RAID)     分析需要从不同的硬盘读取的
转载 2024-01-20 20:34:16
38阅读
 首先我建议电脑最好是 16 G内存的,否则容易卡,Mac 没用过,不清楚。名字也许看起来有点狗血,但里面的授课老师确实讲得不错。可以从第五个视频开始看,环境搭建。玩 Hadoop ,首先就得把环境搭建好,如果这一步不走,下面的课程很难学,准备的工具以及我遇到的问题会分享在文章下面。  1 工具
转载 2023-12-11 20:41:25
8阅读
简介流式计算需要各子系统间相互依赖形成一条处理链路,子系统作如下划分数据采集 数据源一般来自于各个业务的日志服务器,这些日志被实时采集到消息间件中,被下游实时订阅数据处理 数据被采集到中间件后,下游服务订阅数据,并拉取到流式计算系统进行加工处理,通过流式计算引擎计算处理数据存储 数据被加工处理后,会以增量形式(不间断地)写到在线存储系统中,提供给下游服务数据服务 数据处理结果落地到在线存储系统 ,
1】2】 测试的优势用户角度测试敏感性,测试能力3】从测试的角度评估开发质量4】面向开发质量的测试5】baidu推敏捷。。。6】2010年测试重心从简单的find bug,到模拟复杂的场景分析,预防缺陷
原创 2010-11-16 11:06:18
437阅读
  • 1
  • 2
  • 3
  • 4
  • 5