0x01今天,由于公司要进行新老数据仓库的迁移,于是顺便接手了其中一部分的工作,其实大部分迁移工作都比较简单,就是把从ods层-dw层-dm层-sh展示层中涉及到旧仓库的表替换成新仓库的表,并且检查其中字段的差异性,并进行相应的操作。于是撸起袖子开工。0x02前期的进展很顺利,很快就完成了几张表的迁移,心想着按这个进度,不到一个小时就能完成了。Orz在进行到第五张表的迁移时,发现很久没有完成,于是
一. hive概述1. hive的产生背景mapreduce程序大部分解决的问题是结构化数据,而解决结构化数据最佳方案是一条sql语句hive出现的主要原因是解决mapreduce开发成本高的问题。但hive不能完全替代mr,只能处理mr中的结构化数据。2. hive是什么hive提供另一种语言用于编写MapReduce程序,即HQL。Hive的本质是将 SQL 语句转换为 MapReduce 任
生产环境版本 Hive: 1.2.1, Spark: 2.3.2 1.insert overwrite directory 不会覆盖数据 注意,生成结果是目录,生成目录里面的不同文件名不会被覆盖,因此很容易出现数据double或者没有覆盖到数据的问题,比如数据分片原始结果如下: /mytable/0 ...
转载
2021-01-25 00:46:00
102阅读
2评论
# Spark生产中常见的问题及解决方案
Apache Spark 是一个强大的分布式计算框架,许多企业将其用于处理大规模数据。然而,在生产环境中使用 Spark 时,经常会遇到一系列问题。本文将探讨一些常见问题及其解决方案,并提供示例代码以帮助理解。
## 1. 性能问题
### 1.1 任务执行效率低
在 Spark 应用中,任务执行效率低可能与资源配置不当、数据倾斜等因素有关。数据倾
问题一:日志中出现:org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 0原因分析: shuffle分为shuffle write和shuffle read两部分。 shuffle write的分区数由上一阶段的RDD分区数控制,shuffle read的分区数则
转载
2023-10-27 09:28:07
1153阅读
很多印刷企业实施了ERP和MES系统后,发现生产管理方面依然存在很多问题,通过与大量的印刷企业沟通交流,我们总结了10个比较有代表性的问题:
交货准时率低,生产周期长;
订单交期无法精准应答;
计划、跟单、统计等生产辅助人员臃肿;
依靠EXCEL,采用主计划、车间、班组多级排程模式,工作量大,效率低;
计划粗放,计划应变能力差,插单频繁,插单后不能预知后果。
生产节拍紊乱:停工等版、等料,后工
原创
2021-08-24 17:07:50
253阅读
最近总结一波面试问题(包括python,MySQL,大数据等,一个人力量有限),有兴趣查看 github1.数据倾斜的产生和解决办法?数据倾斜以为着某一个或者某几个 partition 的数据特别大,导致这几个 partition 上的计算需要耗费相当长的时间。在 spark 中同一个应用程序划分成多个 stage,这些 stage 之间是串行执行的,而一个 stage 里面的多个 ta
转载
2023-10-27 14:21:23
50阅读
为什么使用CompletableFuture业务功能描述:有一个功能是需要调用基础平台接口组装我们需要的数据,在这个功能里面我们要调用多次基础平台的接口,我们的入参是一个id,但是这个id是一个集合。我们都是使用RPC调用,一般常规的想法去遍历循环这个idList,但是呢这个id集合里面的数据可能会有500个左右。说多不多,说少也不少,主要是在for循环里面多次去RPC调用是一件特别费时的事情。我
原创
精选
2022-11-15 10:03:05
910阅读
在我们日常工作中,油井设备的使用频率越来越高,对其可靠性、安全性要求相对较高。然而,随着生产自动化程度的提高,导致生产流程越来越复杂和不可控,特别是在生产的不同阶段中,影响油井设备运行的因素有很多。油田生产过程中,由于井筒内存在着不同程度的缺陷,会产生各种问题。这些缺陷会使井筒内产生污染,影响井筒使用寿命,甚至造成事故;也会给油井作业带来一定影响,甚至造成重大事故。而井筒中存在不良缺陷和常见故障是
1:数据倾斜理论hive数据倾斜可能的原因有哪些?主要解决方法有哪些?原因1:数据倾斜多由于脏数据/特殊数据 (某一类数据集中)
2:大小表join
3:小文件过多;解决方案1:脏数据不参与关联,给特数据数据做随机(建表时)
2:使用mapjoin将小表加入内存。
3:合并小文件,通过set hive.merge.mapredfiles=true 解决;或者增加map数;(计算量大)code解决方
转载
2023-08-19 17:48:07
57阅读
摘要:本文系统分析了铸造厂ERP系统的各个功能模块,并利用Delphi6.0和数据库SQL Sever7.0在Windows2000 Server平台上开发出了基于C/S模式的铸造厂ERP系统的设备管理部分。其中后台数据库部分是用的SQL Server 7.0数据库系统。前端维护管理部分是用的Borland公司的Delphi 6.0。数据连接采用Delphi6.0的ADO控件集和DataAcces
Hive安装之后,元数据无法连接问题一问题描述:无法在CLASSPATH中找到com.mysql.jdbc.driver,然后ConnectionFactory构建不成功当配置完配置文件之后,启动Hive,运行show databases; 上述问题。网上搜了搜,说是配置文件的问题,就去检查配置文件,发现自己将com.mysql.jdbc.Driver写成了com.mysql.jdbc.drive
转载
2023-07-13 21:48:17
56阅读
1)Zabbix监控界面报错Lack of free swap space on Zabbix server”解决公司线上部署的zabbix3.0的监控界面首页报错说无交换内存主机“Lack of free swap space on Zabbix server”解决此问题的步骤如下: 选择Configu
原创
2018-05-04 11:23:25
7005阅读
点赞
制造型企业生产过程中存在着各种管理上的问题,具体如下:
1、 能否根据产品号码追溯这批产品的所有生产过程信息?
2、 同一条生产线需要混合组装多种型号产品的时候,能否自动校验和操作提示,以防止部件装配错误、产品生产流程错误、产品混装和货品交接错误?
3、 过去12小时之内生产线上出现最多的5种产品缺陷是什么?次品数量各是多少?能否及时纠正?
4、 目前仓库和前工序、中工序、后工序线上
原创
2009-08-11 12:37:12
327阅读
## Java生产中死锁案例
在Java开发中,死锁是一个常见的问题,尤其在多线程编程中更容易出现。当两个或多个线程互相等待对方释放资源,导致彼此永远无法继续执行下去时,就会发生死锁。本文将介绍一个简单的Java死锁案例,并分析如何避免和解决死锁问题。
### 死锁案例
假设有两个线程A和B,它们分别需要两个资源a和b才能继续执行。如果线程A先获得资源a,然后等待资源b,同时线程B先获得资源
hive中常见的问题以及解决方案1.hive表关联查询,如何解决数据倾斜问题? 倾斜原因:map输出数据按照key的hash分配到reduce中区,由于key分布不均匀,或者业务数据本身问题等造成reduce上的数据量差异过大 解决方案: (1)参数调节 hive.map.aggr = true hive.groupby.skuwindata = true 有数据倾斜的时候进行负载均衡,当选项设定
转载
2023-07-14 12:24:43
70阅读
作者|Bruce H. Cottman, Ph.D. 编译|VK |Towards Data Science 产品生命周期 在过去两年半的工作中,我们开发和维护了几个自然语言处理项目。我们为每个项目中的每个版本控制中心创建了Docker镜像:Dev、Test和Stage。我将详细介绍Docker
转载
2020-09-29 23:58:00
193阅读
2评论
这次来讲讲Hive小白常见的坑。首先成功搭建Hadoop集群 一、Hivehive的版本号要求是很高的。对以后的spark on hive 和hive on spark 都有关系 所以请严格参照cloudera的CDH版本对照表,大神无视啦~~~并不是越新就肯定越好,具体看公司上层的决定最好能所有集群同步一个版本。1 hive是什么?简单点来说,hive就是建立在hadoop生
smt贴片加工中会用到很多种设备,如:锡膏印刷机、AOI、回流焊等设备,其中最为关键的就是smt贴片机,smt贴片机是整个smt生产中关键、复杂的设备。smt贴片机已从早期的低速机械贴片机发展为高速光学对中贴片机,并向多功能、柔性连接模块化发展。今天,英特丽来聊聊贴片机吧!一、贴片机分类1、按速度分为中速贴片机、高速贴片机、超高速贴片机;2、按功能分为:高速/超高速贴片机:主要以贴片式元件为主体,
原创
2023-08-11 15:18:32
112阅读
1. RDD如何持久化数据?有两种方法可以持久存储数据,比如持久存储 persist()和cache() 临时存储在内存中。有不同的存储级别选项,比如MEMORY_ONLY、MEMORY_AND_DISK、DISK_ONLY等等。persist() 和 cache() 使用不同的选项取决于任务的要求。 2. 在Yarn上运行Spark时,是否需要在Yarn cluster的所
转载
2023-09-29 10:25:44
109阅读