大数据处理,顾名思义,数据量非常大,有些可以一次处理,有些需要分割后对其进行处理。解决这类题型的第一点就是要算出其所需空间的大小;1.给定100亿个整数,设计算法找到只出现一次的整数;解题思路:有100亿个整数,一个整数4字节,共所占空间:100亿*4字节 = 10G*4 = 40G;所有整数的范围为0到42亿9千万;需要找到只出现一次的整数,那么我们就可以直接断定一个数出现的状态就有三个----            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-04 02:43:35
                            
                                64阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Spark相比于Mapreduce的一大优势就是提供了很多的方法,可以直接使用;另一个优势就是执行速度快,这要得益于DAG的调度,想要理解这个调度规则,还要理解函数之间的依赖关系。本篇就着重描述下Spark提供的Transformations方法.依赖关系宽依赖和窄依赖窄依赖(narrow dependencies)窄依赖是指父RDD仅仅被一个子RDD所使用,子RDD...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-06-10 20:55:00
                            
                                140阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Spark相比于Mapreduce的一大优势就是提供了很多的方法,可以直接使用;另一个优势就是执行速度快,这要得益于DAG的调度,想要理解这个调度规则,还要理解函数之间的依赖关系。 本篇就着重描述下Spark提供的Transformations方法. 依赖关系 宽依赖和窄依赖 窄依赖(narrow            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2016-10-09 23:49:00
                            
                                252阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            Spark相比于Mapreduce的一大优势就是提供了很多的方法,可以直接使用;另一个优势就是执行速度快,这要得益于DAG的调度,想要理解这个调度规则,还要理解函数之间的依赖关系。本篇就着重描述下Spark提供的Transformations方法.依赖关系宽依赖和窄依赖窄依赖(narrow dependencies)窄依赖是指父RDD仅仅被一个子RDD所使用,子RDD...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-06-10 20:54:59
                            
                                96阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-28 07:04:10
                            
                                94阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            BigDecimal用法 一、简介 Java在java.math包中提供的API类BigDecimal,用来对超过16位有效位的数进行精确的运算。双精度浮点型变量double可以处理16位有效数。在实际应用中,需要对更大或者更小的数进行运算和处理。float和double只能用来做科学计算或者是工程计算,在商业计算中要用所创建的是对象            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-12-15 13:44:35
                            
                                34阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1.Hadoop的调度机制1.先入先出FIFO Hadoop 中默认的调度器,它先按照作业的优先级高低,再按照到达时间的先后选择被执行的作业。2.公平调度器(相当于时间片轮转调度) 为任务分配资源的方法,其目的是随着时间的推移,让提交的作业获取等量的集群共享资源,让用户公平地共享集群。具体做法是:当集群上只有一个任务在运行时,它将使用整个集群,当有其他作业提交时...            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-07-15 10:57:20
                            
                                242阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            5. Flume 案例一1. 案例场景A、B两台日志服务机器实时生产日志主要类型为access.log、nginx.log、web.log 现在要求:把A、B 机器中的access.log、nginx.log、web.log 采集汇总到C机器上然后统一收集到hdfs中。 但是在hdfs中要求的目录为:/source/logs/access/20180101/** /source/logs...            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-08-18 02:41:14
                            
                                526阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            
                    
《The Google File System 》 2003年
中文翻译
《MapReduce: Simplified Data Processing on Large Clusters》 2004年
中文翻译
《Bigtable: A Distributed Storage System for Structured Data》 2006年
中文翻译            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-11-20 10:16:13
                            
                                287阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            第一章 前言 前面介绍的GFS 和 MapReduce 通过非常简单的设计,帮助我们解决了海量数据的存储、顺序写入,以及分布式批量处理的问题。 不过我们也要看到,GFS 和 MapReduce 的局限性也很大。 在 GFS 里,数据写入只对顺序写入有比较弱的一致性保障。而对于数据读取,虽然 GFS  ...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-10-29 16:53:00
                            
                                590阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
                     人工智能大数据与深度学习  : weic2c1.Linux基础和分布式集群技术学完此阶段可掌握的核心能力:熟练使用Linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构;学完此阶段可解决的现实问题:搭建负载均衡、高可            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-04-21 11:43:32
                            
                                141阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            人工智能大数据与深度学习 : weic2c1.Linux基础和分布式集群技术学完此阶段可掌握的核心能力:熟练使用Linux,熟练安装Linux上...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2022-04-26 13:15:16
                            
                                50阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            5. Flume 案例一1. 案例场景A、B两台日志服务机器实时生产日志主要类型为access.log、nginx.log、web.log 现在要求:把A、B 机器中的access.log、nginx.log、web.log 采集汇总到C机器上然后统一收集到hdfs中。 但是在hdfs中要求的目录为:/source/logs/access/20180101/** /source/logs...            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-03-04 16:32:50
                            
                                124阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            人工智能大数据与深度学习 公众号: weic2c1.Linux基础和分布式集群技术学完此阶段可掌握的核心能力:熟练使用Linux,熟练安装Linux上...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-10-26 11:22:02
                            
                                116阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            给一个超过100G大小的log file,log中存着IP地址 ,设计算法找到出现次数最多的IP地址?答:首先看到100G的日志文件,我们的第一反应肯定是太大了,根本加载不到内存,更别说设计算法了,那么怎么办呢?既然装不下,我们是不是可以将其切分开来,一小部分一小部分轮流进入内存呢,答案当然是肯定的。在这里要记住一点:但凡是大数据的问题,都可通过切分来解决它。粗略算一下:如果我们将其分成1000个            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                            精选
                                                        
                            2024-06-06 10:15:07
                            
                                427阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            本书单是鉴于本人多年浸淫大数据领域的经验,按照学习大数据的阶段和技术所列的书单,适合刚刚接触大数据领域的新人。话不多说,直接上书单!第一阶段:大数据基础语言的学习Java语言基础:Java开发介绍、熟悉Eclipse开发工具、Java语言基础、Java流程控制、Java字符串、Java数组与类和对象、数字处理类与核心技术、I/O与反射、多线程、Swing程序与集合HTML、CSS与JavaScri            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-21 15:14:03
                            
                                36阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
             新华社电美国纽约一名警察运用自己熟练使用苹果公司iPhone手机的经验,30分钟内帮助一名失主找到手机。
  罗伯特·加兰27日告诉美国《纽约时报》记者,他前一天接到报警,与一名同事赶到事发现场,得知一名女店员的iPhone手机遭持枪劫匪抢劫。
  加兰说,他和妻子是“苹果迷”,十分了解苹果品牌产品。听闻失主遭遇,他掏出自己的iPhone手机,打开名为&            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                            精选
                                                        
                            2012-01-29 15:43:13
                            
                                673阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1,向函数传递数组#!/bin/bash/
#
declare -a UIDS=(`awk -F: '{print $3}' /etc/passwd`)
function GETSUM() {
declare -i SUM=0
declare -i  I=0
declare -a MYIDS=($@)  //向函数传递数组
while [ $I -lt ${#MYIDS[*]} ];            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2013-07-24 14:53:13
                            
                                879阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            上一篇文章我介绍了在Java EE环境中配置Shiro的基本方法, 但是在真正的开发过程中我们基本上不
会使用基于配置文件的用户角色配置, 大多数情况下我们会将用户, 角色和权限存储在数据库中, 然后我们告诉Shiro去数据库中取数据, 这样的配置更灵活且功能更强大.这样使Shiro能读数据库(或LDAP, 文件系统等)的组件叫做Realm, 可以把Realm看作是一个安全专用的DAO, 下面我详            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-10-23 21:40:40
                            
                                25阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1.介绍  
   Spark是基于Hadoop的大数据处理框架,相比较MapReduce,Spark对数据的处理是在本地内存中进行,中间数据不需要落地,因此速度有很大的提升。而MapReduce在map阶段和Reduce阶段后都需要文件落地,对于连续的数据处理,就需要写多个MapReduce Job接力执行。 
   
   最近分析用户查询日志提取共现查询,流程如下:a.先获得<uid,            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-06-11 15:29:35
                            
                                196阅读