Yarn项目练习 1、从本地构建一个 a.txt 文本文件,上传至 hdfs 目录/tmp/tianliangedu/个人用户名目录下。 通过 yarn jar 执行 wordcount 程序,指定新建队列 oncourse,输出目录设置为 /tmp/tianliangedu/tianliangedu/个人用户名下的任意指定目录。 分别实现在 yarn webui 和 yarn shell 中查看
转载 2023-08-24 23:05:36
134阅读
1 面试题1.1 简述Hadoop小文件弊端过多的小文件会加重 namenode 负担,增加寻址成本,降低处理效率,最终导致集群整体性能下降。1.2 HDFS中DataNode挂掉如何处理?HDFS namenode 与 HDFS datenode 具有周期性心跳通信机制,检查发现某个数据的副本数量小于冗余因子时,说明有 datanode 节点宕机,HDFS 就会启动数据冗余复制,为它生成新的副本
   最近某hadoop集群多次出现机器宕机,现象为瞬间机器的sys cpu增长至100%,机器无法登录。只能硬件重启,ganglia cpu信息如下:首先怀疑有用户启动了比较奇葩的job,导致不合理的系统调用出现的问题。随后加了ps及pidstat信息收集job信息(公共集群蛋疼的地方),然后出现问题的时候,各类脚本已经无法工作,一直没有抓到现场。终于在某一次看到一台机器sy
转载 2023-07-11 22:45:43
145阅读
前言本次作业是在《爬虫大作业》的基础上进行的,在《爬虫大作业》中,我主要对拉勾网python岗位的招聘信息进行的数据爬取,最终得到了2641条数据存在一个名为lagoupy.xls中。本次作业的任务主要有以下三点:1.对CSV文件进行预处理生成无标题文本文件,将爬虫大作业产生的csv文件上传到HDFS2.把hdfs中的文本文件最终导入到数据仓库Hive中,在Hive中查看并分析数据3.用Hive对
转载 2023-07-11 22:18:52
194阅读
 一、Hadoop综合大作业 要求:1.将爬虫大作业产生的csv文件上传到HDFS爬取的数据总共有10个表格(分别是不同类别)2.对CSV文件进行预处理生成无标题文本文件对字段进行预处理:查看生成的table.txt:3.把hdfs中的文本文件最终导入到数据仓库Hive中启动hdfs:4.在Hive中查看并分析数据5.用Hive对爬虫大作业产生的进行数据分析,写一篇博客描述你的分析过程和
转载 2024-01-16 18:11:23
55阅读
大数据第二次作业操作大家好,我是【豆干花生】,这次我带来了大数据的第二次实践作业~ 主要内容为hadoop编程,使用GraphLite进行同步图计算 可以说十分具体了,包含了具体操作、代码指令、各个步骤截图。 文章目录大数据第二次作业操作一.作业内容二.第一个作业--hadoop编程1.具体代码如下:2.准备工作:3.具体操作三.第二个作业--同步图计算,SSSP1.具体代码2.准备工作3.具体操
转载 2024-03-14 05:44:43
92阅读
 作业要求1.对CSV文件进行预处理生成无标题文本文件,将爬虫大作业产生的csv文件上传到HDFS2.把hdfs中的文本文件最终导入到数据仓库Hive中,在Hive中查看并分析数据3.用Hive对爬虫大作业产生的进行数据分析(10条以上的查询分析) 作业题目:爬取电影《何以为家》影评并进行综合分析大数据案列:1.准备本地数据文件对CSV文件进行预处理生成无标题文本文件,将爬虫大
转载 2023-12-13 12:02:55
244阅读
Q1. Hadoop 有哪些组件?(1)HDFS集群:负责海量数据的存储,集群中的角色主要有 NameNode / DataNode/SecondaryNameNode。(2)YARN集群:负责海量数据运算时的资源调度,集群中的角色主要有 ResourceManager /NodeManager(3)MapReduce:它其实是一个应用程序开发包。Q2: 为什么spark要把操作分为transfo
转载 2023-07-25 21:07:59
56阅读
# Hadoop 作业提交 ## 简介 Hadoop 是一个用于存储和处理大规模数据的开源框架。它支持将数据存储在多个计算机集群中,并通过MapReduce 等并行计算模型来处理这些数据。在使用 Hadoop 进行数据处理时,通常需要编写 Hadoop 作业,并将其提交到 Hadoop 集群中运行。 本文将介绍如何编写和提交 Hadoop 作业,并提供相应的代码示例。 ## Hadoop
原创 2024-03-23 08:16:53
33阅读
1.将爬虫大作业产生的csv文件上传到HDFS爬取豆瓣网战狼2电影的影评数据把爬取到的csv文件存放到ubuntn系统中,并创建存放的文件夹bigdatacase、dataset:把下载好的影评test.csv文件文本拷贝到dataset目录下并查看文件查看文件的前五条数据删除表头2.对CSV文件进行预处理生成无标题文本文件每个字段用\t隔开,这里有7个字段。把处理后文件保存到txt文件中启动ha
转载 2023-07-24 13:31:51
149阅读
# Hadoop作业优化减少作业时间 在进行Hadoop作业优化时,我们需要通过一系列步骤来最终降低作业时间,使得我们的数据处理更加高效。下面我们将详细介绍优化流程,以及在每个步骤中需要采取的具体措施和对应的代码示例。 ## 优化流程 | 步骤 | 描述 | |---------------|----
原创 8月前
47阅读
#define _CRT_SECURE_NO_WARNINGS 1 #include<stdio.h> #include<string.h> #include<windows.h> #include<stdlib.h> #include<math.h> #include<time.h>//int count2(unsigned
原创 精选 2023-02-10 07:47:42
185阅读
1点赞
日常分享一些很简单的代码哈哈
原创 2022-03-18 23:23:37
117阅读
2点赞
在许多软件开发和数据分析项目中,编程语言 Python 常被广泛应用。此文章将详细探讨解决一个代表性的“python作业”问题,旨在帮助读者掌握排列组合的逻辑与实现方法。在这篇博文中,我们将结合背景定位、核心维度、特性拆解、实战对比、深度原理和生态扩展,全面呈现 Python 在排列组合问题上的应用。 排列组合问题的背景定位主要体现在其在数据分析、概率计算及应用数学等场景中的重要性。例如,在统
ACBBA 空格算一个字符故10大                                                   
c
原创 2021-10-17 22:13:47
227阅读
微信程序-趣测博客班级 作业要求 homework/11334作业目标编写一个程序,可以全新编写,也可以学习别人的程序进行修改熟悉git代码管理流程,将源代码上传到到github在博客园班级中写一篇相应的博文作业源代码https://github.com/pipixia121380/quce学号 31801119姓名朱嘉豪院系浙大城市学院计算机系  开
1.让用户分2次输入2个整数,输出2个数的最大值,最小值import java.util.Scanner; class Demo01 { public static void main(String[] args) { //1.让用户分2次输入2个整数,输出2个数的最大值,最小值 Scanner sc = new Scanner(System.in); System.out.p
转载 2023-07-31 21:01:52
48阅读
一、准备工作三台虚拟机:master、node1、node2#克隆的时候选择 完整克隆 和 链接克隆 的区别完整克隆:克隆出两台独立的虚拟机链接克隆:依赖master,假如说把master删了,那么node1、node2就都挂了链接克隆较完整克隆更加节省空间时间同步ntpdate ntp.aliyun.comJDK的版本-jdk1.8java -version修改主机名三台分别执行 vim /et
转载 2023-08-23 13:16:47
115阅读
1. 简介Hadoop是Apache自由软件基金会资助的顶级项目,致力于提供基于map-reduce计算模型的高效、可靠、高扩展性分布式计算平台。2. Map-Reduce应用场景作为一种受限的分布式计算模型,Map-Reduce计算模型有其擅长的领域,也有其不擅长的方面:条款1:map-reduce计算模型适用于批处理任务,即在可接受的时间内对整个数据集计算某个特定的查询的结果,该计算模型不适合
转载 2023-09-26 09:37:49
79阅读
问题一:了解对比Hadoop不同版本的特性,可以用图表的形式呈现答:发行版本功能特点        DKhadoop发行版DKhadoop发行版:有效的集成了整个HADOOP生态系统的全部组件,并深度优化,重新编译为一个完整的更高性能的大数据通用计算平台,实现了各部件的有机协调。因此DKH相比开源的大数据平台,在计算性能上有了高
转载 2023-09-15 22:21:44
51阅读
  • 1
  • 2
  • 3
  • 4
  • 5