功能和环境说明 实际环境是开发使用的两台服务器,每个服务器上是三个集群容器节点,总共六个节点,使用weave实现主机的通信,并且利用小插件可以实现在局域网或者是在外网查看监控集群的webUI和开放7077等关键端口进行程序远程调试功能。 目前网上主机的工具很多,我挑选的是使用普遍点和资料多点的weave,我实习的这个公司的需求并不大,只需要解决他们的hadoop,spark的开发环境就行了。
As you can see, hadoop fsck and hadoop fs -dus report the effective HDFS storage space used, i.e. they sh
原创 2023-07-04 19:23:10
89阅读
作者:王瑞楠、吴忠强、徐韬、田杨军摘要:入门数据挖掘,必须理论结合实践。本文梳理了数据挖掘知识体系,帮助大家了解和提升在实际场景中的数据分析、特征工程、建模调参和模型融合等技能。数据分析探索性数据分析(Exploratory Data Analysis,EDA)是指对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的数据分析方法。常用的第三方库数据科学
转载 2022-08-30 06:46:45
320阅读
这篇文章主要会介绍Redis的集群搭建、主从复制、哨兵模式、缓存击穿、缓存穿透、缓存雪崩等目录、Redis集群搭建1、基本服务搭建2、从机连接主机二、Redis的主从复制1、什么是主从复制2、特点3、复制的两种规则三、哨兵模式四、什么是缓存击穿、缓存穿透、缓存雪崩及怎么避免和解决1、缓存击穿2、缓存穿透3、缓存雪崩总结、Redis集群搭建        
西索,资深数据分析专家;故事很多,余生慢慢分享~
原创 2021-06-10 19:43:31
10000+阅读
# 利用Spark Core合并RDD数据的项目方案 ## 项目背景 随着大数据技术的发展,各个行业都产生了大量的数据。为了从这些数据中提取价值,数据清洗和合并成为了重要的工作。在大数据处理平台中,Apache Spark以其出色的性能和便捷的API,成为数据处理的首选工具之。本项目旨在利用Spark Core对两份数据进行合并,通过创建RDD(弹性分布式数据集)来实现这功能。 ## 目
原创 2024-09-23 03:34:01
136阅读
、IIS的备份     1.在本地计算机上的 IIS 管理单元中,右键单击 Internet 信息服务下面的计算机图标。     2.选择“所有任务\备份/还原配置”选项。     3.点击“创建备份”按钮,在配置备份名称下输入你为备份起的名字     4.将“使用密码加密备份”勾选上(如果在做备份的时
数据分析报告!
转载 2021-06-23 10:38:54
346阅读
# Python多线程通信操作同一份数据 在Python中,多线程是种处理并发的方式,可以让程序同时执行多个任务,提高程序的运行效率。然而,在多线程编程中,存在个常见的问题,即如何保证多个线程能够安全地访问和操作同一份数据。本文将介绍如何使用Python多线程进行通信,以及如何安全地操作共享数据。 ## 什么是多线程通信 在多线程编程中,通信是指多个线程之间共享数据或交换信息的过程。多线
原创 2024-04-18 04:33:56
33阅读
小编从2016年申请的,在2018年12月之前,直都是随性的在经营,因为之前是在个封闭的网络环境中
原创 2019-06-15 12:34:12
328阅读
机房架构存在的原因 单机房旦死机,断电、维护根本无法挽回整个数据,想离线读取等都不行。当机房不可用,所有的业务就都不可用。荔枝 FM 要求业务离用户最近,南方的用户连南方的机房,北方的用户连北方的机房,国外的用户连国外的机房。大陆的网络和国外的网络有定的隔离性,如果没有做多机房的连通性,数据的传输和实时性就会有问题。 机房的作用是为了备份,机房数据放在另机房是异地多活。
数据平台搭建版本这个版本真的关键 hadoop:2.10.0准备环境新增用户,ssh免密登陆如果配置分布式spark还需要 vi /etc/hostname 添加到下图修改 vi /etc/hosts,三台机器都需要127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 ::1
转载 2024-02-20 10:46:15
98阅读
努力总有回报,哪怕只是教训的积累。付出总有收获,哪怕只是汗水的流淌。过去的付出是现在的成果现在的付出是将来的福报
原创 2022-11-18 11:40:26
230阅读
(转载)数据库冷、备份 冷备份 冷备份发生在数据库已经正常关闭的情况下,当正常关闭时会提供给我们个完整的数据库。冷备份是将关键性文件拷贝到另外位置的种说法。对于备份Oracle信息而言,冷备份是最快和最安全的方法。冷备份的优点是: 1.是非常快速的备份方法(只需拷贝文件) 2.容易归档(简单拷贝即可) 3.容易恢复到某个时间点上(只需将文件
1、HDFS数据迁移解决方案1.1 迁移方案 ——数据迁移的使用场景和考量因素场景冷热集群数据同步、分类存储使用频率较高的数据随着时间发展频率变低而迁移集群数据整体搬迁:原A机房搬迁到B机房数据的准实时同步:数据双备份使用考量因素带宽:带宽使用多了影像正常业务,带宽低了迁移慢性能:采用单机程序,还是多线程的分布式程序增量同步:TB\PB级别的数据如何只迁移增量数据数据迁移的同步性:数据迁移的过程需
转载 2023-11-03 19:28:37
598阅读
作者简介昱康,携程架构师,对分布式计算和存储、调度、查询引擎、在线离线混部、高并发等方面有浓厚兴趣。本文将分享携程Hadoop机房架构实践,包含Hadoop在携程的发展情况,整个机房项目的背景,我们机房的架构选型思路和落地实践,相关的改造和对未来的展望,希望给大家些启迪。 、Hadoop在携程的落地及发展情况 携程Hadoop是从2014年引进的,基本上每年较前年以
转载 2024-06-18 21:51:15
161阅读
数据透视表的强大之处毋庸置疑,但是他到底强在哪呢?这还用说?当然是可以在老板面前装逼了!你想想,如果你的老板想让你做一份上半年销售量的统计图,你知道这是项再轻松无比的任务了,很快就问销售要到了数据,然后手指...
转载 2019-07-30 09:45:00
163阅读
2评论
最近需要给兄弟部门出一份数据设计文档,我这个项目是半路接手的,前辈也没有留下啥说明,想偷懒发现个好用的工具screw如下:
原创 2024-06-24 01:09:29
48阅读
如何将一份数据分两次导出 ## 引言 在实际业务中,有时候需要将一份庞大的数据集导出到外部系统或进行备份。但是由于数据量过大,导出过程可能会耗费大量时间和资源。为了避免导出过程对系统的影响和资源的浪费,我们可以考虑将数据分批次导出。本文将介绍如何使用MySQL数据库实现将一份数据分两次导出的方法,并提供示例代码。 ## 问题描述 假设我们有个名为`users`的表,其中存储着大量用户数据
原创 2024-01-07 07:48:45
100阅读
社区提供的读写分离架构图如下:通过架构图可以看到Kylin会访问两个集群的HDFS,建议两个集群的NameService务必不能相同,尤其是集群启用NameNode HA时,相同的NameService会导致组件在集群访问HDFS时因无法区分NameService而出现问题。两个集群:cluster1(hive集群):hdfs.hive,yarn,zookeeper,mrcluster2(hba
  • 1
  • 2
  • 3
  • 4
  • 5