Hive是工作中常用的数据仓库工具,提供存储在HDFS文件系统,将结构化数据映射为一张张表以及提供查询和分析功能。 Hive可以存储大规模数据,但是在运行效率上不如传统数据库,这时需要懂得常见场景下提升存储或查询效率的方法,本文记录工作中常见的情形。map阶段优化map阶段主要是把文件拆分成一个个文件块。正常情况下,一个map任务的启动和初始化时间远远大于逻辑处理时间,所以可以增大max参数值减少            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-09-19 20:48:24
                            
                                138阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1 问题描述有一张日志表log表(memberid,pvtime),和会员表memberid(memberid),统计每一个会员总浏览时长。2 问题分析求解该问题时一般先用日志表与会员表进行join过滤出会员的日志信息,但是在过滤日志时进行join时候,由于每个会员活跃程度不一样,出现部分会员非常活跃,导致关联时key分布不均出现数据倾斜。此时呢,会员表相对于日志表来说比较小,不是很大,但是走ma            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-14 23:59:24
                            
                                135阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            前言 我不造数据,我只是数据的搬运工。 作为一个“大数据民工”,在做数据离线ETL时,通常会使用Hive作为我们首选工具。Hive虽然比较慢,但是在处理海量数据(GB甚至TB级数据)时,其借助于Yarn的分布式处理能力以及其稳定性,让其在大数据领域成为了一个绕不过去的话题。  Hive要发挥其稳定性,又要让其稳定高效执行,就涉及到Hive相关的参数调优,这个不管是实际工作中还是在求职面试中,都是一            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-18 13:43:28
                            
                                173阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            目录步骤1.创建流,把数据转换成流步骤2.中间的操作,比如filter,map等,对数据进行操作(链式编程)筛选与切片映射:排序步骤3:终止操作查找和匹配:归约:收集:集合的使用主要和内存有关,而Stream主要和cpu有关官方概念:支持顺序和并行操作的一系列元素。Stream文档中方法很多都是函数式接口,所以在写的时候可以通过lambda表达式主要分三步骤,1.创建流,2操作流,3终止流步骤1.            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-10-07 08:05:37
                            
                                30阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Hive作为大数据平台举足轻重的框架,以其稳定性和简单易用性也成为当前构建企业级数据仓库时使用最多的框架之一。但是如果我们只局限于会使用Hive,而不考虑性能问题,就难搭建出一个完美的数仓,所以Hive性能调优是我们大数据从业者必须掌握的技能。本文将给大家讲解Hive性能调优的一些方法及技巧。Hive性能调优的方式为什么都说性能优化这项工作是比较难的,因为一项技术的优化,必然是一项综合性的工作,它            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-21 14:49:09
                            
                                111阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            上一篇我们将概念想法形成了信息结构,罗列出了产品的所有信息内容,现在我们就要依据信息结构,开始规划产品的功能需求,绘制出产品结构图和用户流程图。首先我们要规划出产品的频道及子频道、子模块或子页面。(如下图)  图注:讲解一下我对于这个思维导图的名词理解 1、频道:某一个同性质的功能或内容的共同载体,也可称为功能或内容的类别。 2、子频道:某频道下细分的另一类别 3、页面:单个或附属某个频道或分            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-27 19:48:50
                            
                                46阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            
            大数据时代,数据来源途径越来越丰富,而且类型也很多花样,存储和数据处理的需求量很大,对于数据展现也非常的高,并且很看重数据处理的高效性和可用性。大数据领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和呈现的有力武器。想要通过大数据技术获取更多有价值的东西,需要掌握大数据技术的核心技术:大数据采集、大数据存储及管理、大数据分析及挖掘、数据可视化。在大数据领域,比较熟悉的几种技术:Apac            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-14 16:45:32
                            
                                58阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            苹果在2019年开发者大会WWDC上发表了最新版本的macOS Catalina,目前为预览版,预计在下个月提供公开测试版本,今年秋季推出,新版的操作系统Catalina为开发者增添许多新应用程序和功能,在最新的Catalina操作系统中,苹果用Apple Music、Apple Podcast和Apple TV取代了iTunes,且全新的Sidecar功能可以让用户延伸Mac计算机画面,将iPa            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-22 20:36:50
                            
                                59阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            知识分为几类,科学、技术与            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-12-12 15:32:06
                            
                                50阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1.timeit模块python标准库的timeit模块,可以把一段代码运行上千次甚至百万次,以确定平均运行时间。如果想要测试多行代码,可以传递一个多行代码字符串,或者使用分号分隔多行代码。举个例子:import timeit
timeit.timeit('a,b=55,100;a=a^b;b=a^b;a=a^b')运行结果:速度已经很快了。再加入临时变量试试:timeit.timeit('a,b            
                
         
            
            
            
            基础是最重要的!            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                            精选
                                                        
                            2008-10-20 14:34:25
                            
                                783阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            StackExchange.Redis 访问封装类 最近需要在C#中使用Redis,在Redis的官网找到了ServiceStack.Redis,最后在测试的时候发现这是个坑,4.0已上已经收费,后面只好找到3系列的最终版本,最后测试发现还是有BUG或者是我不会用。没有办法,最好找到了StackEx            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-07-15 15:46:57
                            
                                77阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            计算机网络性能的测度:时延,丢包,吞吐量时延处理延时:传输延迟:类似与汽车在过收费站的时候,每一辆车汽车在收费站缴费所花费的时间,就陈伟传输延迟,而这里以10辆汽车作为一个分组,每个分组里面的汽车相当于计算机里面的1个比特传播延迟:类似于汽车从一个收费站到另外一个收费站的时候,所花费的时间陈伟传播延迟,这里也是以10辆汽车作为一个分组。排队延迟:如果总共有10个分组,每个分组有10辆汽车,而汽车站            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-03 21:09:06
                            
                                33阅读
                            
                                                                             
                 
                
                             
         
            
            
            
                一年半以前,写过一篇博文《软件开发的路上,有条件的话应该主动失业一下,充充电》,如今实践了这个做法,实践之后,感觉受益良多。
    在离职回家休息之前,我一直比较迷茫,感觉每一年都在重复去年的生活,生活没有什么新意,没有努力的目标。一个偶然的机会,接了一个小项目,离职回家,一边做项目,一边思考一下自己当前的状况。    可能是            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2011-01-01 19:15:04
                            
                                777阅读
                            
                                                        
                                点赞
                            
                                                                                    
                                1评论
                            
                                                 
                 
                
                             
         
            
            
            
            106条打造你成为交际大师    成功的道路上,人脉比知识更重要。发展人际关系应当是你优先级最高的事。《不要一个人吃饭(106条技巧。在实践中练习这些技巧,变成为生活成功充实的交际大师。  2、努力让自己的付出多于回报  因为你会为别人提供价值,别人才会联系你。所以多考虑别人而不是自己。  4、成功的关键是慷慨大方  在社交中通行的不是贪图便利,而是慷慨大方            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                            精选
                                                        
                            2010-05-02 11:21:09
                            
                                427阅读
                            
                                                                             
                 
                
                             
         
            
            
            
             1、确定测试目标和需求:确定要测试的系统、组件或功能。确定测试的目标,例如响应时间、吞吐量、并发用户数等性能指标。定义测试的需求,包括测试时间、资源预算等。2、确定测试范围和环境:确定测试范围,包括要测试的功能模块、业务流程等。搭建测试环境,包括硬件、网络和软件环境,与生产环境尽可能接近。3、设计测试场景和负载模型:根据实际应用场景和用户行为模式设计测试场景,反映真实用户的访问行为。定            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-11-14 13:43:21
                            
                                64阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            简单概括下业务逻辑,就是:发起一个拼团,其他人点击活动进去,领券,然后领券时要验证拼团的有效性,在买            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-12-07 10:00:03
                            
                                59阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1871年的春天,英国蒙特瑞综合医科学校的学生威廉斯勒对人生中的许多问题很困惑,他不明白应该怎么处理远大的理想和具体的身边小事,一个人应该有怎么样的做事态度才能成功。他渴望成功,但对手边的小事又觉得没有什么意义。他甚至以为现在的学校生活枯燥乏味,没什么值得去用心的。因而他的成绩也每况愈下。他找他的老师探讨这些困难的人生问题。他的老师推荐他阅读哲学家卡莱里写的一本哲学启蒙读物。老师说,他的书里或许有            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2011-06-20 19:59:18
                            
                                345阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            我们在项目中或多或少都会接触到类别,延展,那么到底类别是什么,而延展又是什么呢?今天我们一块来探讨下:类别就是为已存在的类添加新的方法,但是不能添加实例变量。比如系统的类,我们看不到他的.m文件,所以没有办法用直接添加方法的方式去实现。这个时候我们可以使用类别来给它添加一些新的方法供我们使用,再具体点说就是,比如说NSString类有10个方法(假设,具体几个,我也没注意),但是呢,NSStrin            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-15 22:25:40
                            
                                71阅读
                            
                                                                             
                 
                
                                
                    