“大数据”时下一个热门的词语,近几年来,关于大数据的著作和文章铺天盖地,似乎也在共同在传递一个信息:越来越多的行业、人士开始关注并实际探索大数据的应用,我们正在一起描绘着大数据巨大效用的蓝图,但在实践的路上,我们都处在孩子起步阶段小步前行。   一、什么是大数据   大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-09 15:14:50
                            
                                81阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            MapR 成立于 2009 年,是全球三大 Hadoop 开源大数据软件提供商之一,其余两家是 Cloudera 和 Hortonworks(2018两家公司已经合并)。在很长一段时间里,Hadoop 就是大数据的代名词,也是开源的大数据基础软件与平台的基础。但是 Hadoop 在具体的业务场景中还缺乏很多功能,而 Hadoop 商业化公司所做的事情就是完善这些功能,使其更好地应用于企业的业务场景            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-19 15:57:46
                            
                                57阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            对于Pandas运行速度的提升方法,之前已经介绍过很多回了,里面经常提及Dask,很多朋友没接触过可能不太了解,今天就推荐一下这个神器。1、什么是Dask?Pandas和Numpy大家都不陌生了,代码运行后数据都加载到RAM中,如果数据集特别大,我们就会看到内存飙升。但有时要处理的数据并不适合RAM,这时候Dask来了。Dask是开源免费的。它是与其他社区项目(如Numpy,Pandas和Scik            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-16 11:07:12
                            
                                30阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            随着信息技术的迅猛发展,大数据已经成为当今时代的重要特征和宝贵资源。在这个数据驱动的时代,大数据软件技术成为了越来越多人追逐的热点。无论是出于职业发展的需要,还是对个人技能提升的追求,报考大数据软件相关的专业认证已经成为了不少人的选择。特别是在软考(软件专业技术资格和水平考试)中,大数据软件方向的认证更是备受瞩目。
软考作为我国IT行业的重要考试之一,其大数据软件方向的认证不仅具有极高的含金量,            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-05-27 11:41:43
                            
                                57阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            众所周知,现如今,大数据越来越受到大家的重视,也逐渐成为各个行业研究的重点。正所谓“工欲善其事必先利其器”,大数据想要搞的好,使用的工具必须合格。而大数据行业因为数据量巨大的特点,传统的工具已经难以应付,因此就需要我们使用更为先进的现代化工具,那么大数据常用的软件工具有哪些呢?首先,对于传统分析和商业统计来说,常用的软件工具有Excel、SPSS和SAS。Excel是一个电子表            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-05 18:37:05
                            
                                67阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            最近做OLAP工作时一直在和kylin打交道,因为kylin相关知识比较多,所以为了加深对kylin的整体理解以及把自己的经验分享给大家,便准备周末写了该文章,正文如下1、kylin概述在讲解kylin之前,先大致说下OLAP和OLTP。OLTP也称联机事务处理,一般指面向传统关系型数据库,实时性要求比较高的事务操作。OLAP也称联机分析处理,一般指面向大数据场景的分析操作。因为二者所应对的数据体            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-21 11:42:58
                            
                                250阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
             在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。  当我们掷一枚硬币时,说正面朝上的概率是1/2,是这样吗?当你掷十次硬币时,正面朝上的概率可未必是1/2,这个结果带有很强的随机性,并没有什么规律可言。但是当投掷的次数足够多时,规律就呈现出来了。概率研究的是随机现象背后的客观规律,当试验次数趋近于无穷时,正面朝上的频率收敛于1/2概率。  大数定律是概率论中讨论...            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-06-07 23:15:19
                            
                                675阅读
                            
                                                                             
                 
                
                             
         
            
            
            
             在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。  当我们掷一枚硬币时,说正面朝上的概率是1/2,是这样吗?当你掷十次硬币时,正面朝上的概率可未必是1/2,这个结果带有很强的随机性,并没有什么规律可言。但是当投掷的次数足够多时,规律就呈现出来了。概率研究的是随机现象背后的客观规律,当试验次数趋近于无穷时,正面朝上的频率收敛于1/2概率。  大数定律是概率论中讨论...            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-01-16 16:49:37
                            
                                855阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            将随机变量X独立重复地观察n次, X1,...,Xn相互独立,且与X具有相同的分布。由辛钦大数定律, 可知当n充分大时, 可            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-08-22 15:22:56
                            
                                69阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            大数据面试之Hive1.Hive1.1 Hive的架构模型?1.2 Hive配置、启动和访问?1.3 hive中存放的是什么?1.5 Hive建表语句1.6 Hive内部表,外部表的区别1.7 Hive如何导入数据?1.8 Hive如何导出数据?1.9 Hive的数据倾斜1.10 Hive分区、分桶如何实现?优缺点1.11 请说明hive中Sort By、Order By、Cluster By,            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-22 21:48:47
                            
                                43阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            一、大数据的诞生(1)当全球互联网逐步建成(2000年左右),各大企业或政府单位拥有了海量的数据亟待处理。 (2) 基于这个前提逐步诞生了以分布式的形式(即多台服务器集群)完成海量数据处理的处理方式,并逐步发展成现代大数据体系。二、什么是大数据2.1 狭义理解技术层面的理解,使用分布式技术完成海量数据的处理,得到数据背后蕴含的价值。大数据是一类技术栈,是一种用来处理海量数据的软件技术体系。2.2            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-06-29 23:52:05
                            
                                130阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Hadoop是较早用于处理大数据集合的分布式存储计算基础架构,通过Hadoop,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的为例执行告诉运算和存储。简单来说,Hadoop是一个平台,在它之上,可以更容易地开发和运行大规模数据的软件。01 Hadoop 概述Hadoop体系也是一个计算框架,在这个框架下,可以使用一种简单的编程模式,通过多台计算机构成的集群,分布式处理大数据            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-16 00:02:36
                            
                                147阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            在现如今,在处理数据基础操作上大多时候采用awk以及java程序即可。但突然有百万级数据需要处理,通过awk则发生无法匹配,采用java处理很慢,起码在1天以上,当另辟奇径采用采用python来处理时,结果速度有了质的提升,下面就由容大教育python培训老师给大家分享下如何快速使用python处理大数据。1、安装python第一步首先下载python软件,在开始里面找到python的exe,点击            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-03 23:38:36
                            
                                69阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            上面搜索是新功能,大家可以体验看看在数据科学计算、机器学习、以及深度学习领域,Python 是最受欢迎的语言。Python 在数据科学领域,有非常丰富的包可以选择,numpy、scipy、pandas、scikit-learn、matplotlib。但这些库都仅仅受限于单机运算,当数据量很大时,比如50GB甚至500GB的数据集,这些库的处理能力都显得捉襟见肘,打开都很困难了,更别说分析了。本文向            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-27 15:04:17
                            
                                48阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            统计软件列表ActivStats 多媒体交互式学习软件包,统计学入门好帮手 Windows版本ADE-4 一个多元数据分析软件。 Windows版本ALSCAL 多维等级分析(Multidimensional Scaling)最主要的工具之一。. Windows版本Analyse-It Microsoft Excel插件。主要用于临床实验室的统计分析中。 Windows版本AssiStat 为心理            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-04 15:55:21
                            
                                93阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            大数据相关软件安装 1. nginx 安装 2. 3.            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-08-04 16:53:12
                            
                                258阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            作为一个数据可视化行业的小白,在尝试用数据可视化软件制作大屏时总会有各种各样的问题,一是大多数数据可视化软件都要高价购买,试错成本太高,二是有些可视化软件操作难度太大,对新手小白太不友好,所以今天就盘点几款市面上比较火的数据可视化软件的优缺点,以及适合什么样的人去使用,希望对大家在选择时有一些帮助。1.山海鲸可视化 山海鲸可视化是一款主打数字孪生技术的软件,虽然主打数字孪生技术,但在做可            
                
         
            
            
            
            商业智能的应用在国外已广为普及,并且开始不断应用大数据和云技术。而国内,商业智能BI工具在这几年才开始慢慢被接受,企业开始有意识地建立一体化数据分析平台,为经营决策提供分析。近几年,商业智能的几大趋势:对于大数据更好的支持,对海量数据块的快速响应,各大商业智能软件基本都支持了hadoop 作为数据库;可视化分析的重要性,也日益明显,比如国内的亿信华辰跟国外的Tableau,QLK, PowerBI            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-27 18:23:50
                            
                                353阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            
1 jdk
yum install lrzsz 比alt+p上传文件更方便
rz 回车就可以上传文件了,上传是上传到当前目录下
解压上传的jdk
tar -zxvf jdk-7u80-linux-x64.tar.gz
配置变量
vi /etc/profile
#在文件最后添加
export JAVA_HOME=/root/apps/jdk1.7.0_80
export PATH=$            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2018-12-23 18:49:00
                            
                                68阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            下载链接(待定)            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-08-04 16:53:13
                            
                                186阅读