目录1 Spark 是什么2 Spark 四大特点2.1 速度快2.2 易于使用2.3 通用性强2.4 运行方式3 Spark 框架模块3.1 Spark Core3.2 Spark SQL3.3 Spark Streaming3.4 Spark MLlib3.5 Spark GraphX3.6 Structured Streaming4 Spark 运行模式1 Spark 是什么Spark 是加            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-14 18:57:49
                            
                                99阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            说到架构,我们先来了解一下,什么才是架构。架构,又名软件架构,是有关软件整体结构与组件的抽象描述,用于指导大型软件系统各个方面的设计。架构描述语言(ADL)用于描述软件的体系架构。现在已有多种架构描述语言,如Wright(由卡内基梅隆大学开发),Acme(由卡内基梅隆大学开发),C2(由UCI开发),Darwin(由伦敦帝国学院开发)。ADL的基本构成包括组件、连接器和配置。接下来看看我们的传统架            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-27 10:17:54
                            
                                78阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            高级驾驶辅助系统(ADAS)是利用安装在车上的各式各样传感器,在汽车行驶过程中随时来感应周围的环境,收集数据,进行静态、动态物体的辨识、侦测与追踪,并结合导航仪地图数据,进行系统的运算与分析,从而预先让驾驶者察觉到可能发生的危险,有效增加汽车驾驶的舒适性和安全性。 近年来ADAS市场增长迅速,原来这类系统局限于高端市场,而现在正在进入中端市场,与此同时,许多低技术应用在入门级乘用车领域更加常见,经            
                
         
            
            
            
            ## Ad-Hoc 数据分析指南
Ad-Hoc 数据分析是一种灵活的数据分析方法,允许您快速查找数据并回答具体问题,不需要创建长期的报告结构。本文将带您了解如何进行 Ad-Hoc 数据分析,包括具体步骤、使用的代码和示例图表。
### 数据分析流程
以下是进行 Ad-Hoc 数据分析的一般流程:
| 步骤       | 描述            
                
         
            
            
            
            你是否常常遇到没有校园网充值卡所以不能上网的情况呢?没关系,今天教你通过Ad hoc利用室友的网上网。前提是,你们俩都是笔记本电脑。那么,这是一种轻便的暂时性联网方式,因为它不需要用到其他任何辅助设备,只要两个笔记本就好了。让无线路由器什么的见鬼去吧!Ad-hoc跟一般的无线上网不同,它无需AP(Access Point,即接入点)。它是一种点对点的无线网络应用模式,只适用在2台(点对点!)网络连            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-30 16:35:07
                            
                                82阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
             TP-LINK TL-WN721N USB无线网卡+linux 2.6.38系统组成的,其中一块网卡工作在adhoc模式下,用来和其他骨干网节点进行无线连接(自组织形式连接,而不是wifi接入点方式),另一块网卡工作在wifi的master模式下,也就是说需要在这块网卡上创建wifi热点,供用户的终端设备连接。即,骨干网节点之间采用自组网方式互连,而用户终端设备和骨干网之间采            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-10 17:42:32
                            
                                60阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
              大数据的应用开发过于偏向底层,具有学习难度大,涉及技术面广的问题,这制约了大数据的普及。现在需要一种技术,把大数据开发中一些通用的,重复使用的基础代码、算法封装为类库,降低大数据的学习门槛,降低开发难度,提高大数据项目的开发效率。   大数据在工作中的应用有三种:与业务相关,比如用户画像、风险控制等;   与决策相关,数据科学的领域,了解统计学、算法,这是数据科学家的范畴;            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-03 08:10:56
                            
                                193阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            当前的大数据系统架构主要有两种:一种是MPP数据库架构,另一种就是Hadoop体系的分层架构。这两种架构各有优势和适合的场景。另外随着光纤网络通信技术的发展,大数据系统架构正在向着存储与计算分离的架构和云化架构方向发展。 Hadoop体系的分层架构解读见:大数据系统架构——Hadoop体系本文从并行硬件架构的发展讲起,进一步介绍基于并行硬件架构的数据库一体机系统与基于MPP架构的数据库软件系统。            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-15 13:19:39
                            
                                154阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一.业务分析此次案例中,我们面临的业务需求时,有一张mysql表里存储了千万级别的数据,每次业务流程结束,这张表中就会增加至少8万条数据,而我们的系统要做的就是把这些数据按不同的需求统计展示,在代码中有大量的复杂计算和复杂sql语句,,并且该系统的业务会经常发生变化,这让整个系统变得缓慢和难以维护,即使在使用redis作为我们的缓冲层,也无法很好的解决查询效率问题,毕竟第一次加载真的太慢了,在面临            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-06 11:25:35
                            
                                30阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            大数据入门知识总结一、大数据部门及流程二、数据仓库1、数据仓库的基本概念2、数据仓库的主要特征3、数据仓库与数据库区别5、数据仓库——ETL三、Hadoop——HDFS分布式存储系统1、Hadoop简介2、HDFS、Yarn、MapReduce3、Hadoop集群搭建4、HDFS的概述5、HDFS的Shell命令6、HDFS的基准测试四、Hive1、什么是Hive2、Hive的特点3、Hive架            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-30 12:38:46
                            
                                137阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            各位好:回首10年多的科研工作历程,也是中国经济高速发展的10多年,中国高铁、核电、航空、互联网、云计算、大数据、人工智能等领域无不铭刻着“中国名片”,这就是科技是第一生产力的实践验证!12年前,获得北邮计算机工学硕士后信心满满的踏上了科研之路,一干就是十多年,有苦有泪有艰辛,但收获的是一种为国防科技发展能奉献和敢担当的责任感。今天,更一次站在了移动互联网这个朝阳产业的跑道上,和诸多大数据和人工智            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-25 10:08:17
                            
                                31阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1、传统大数据架构优点缺点使用场景简单,易懂,对于BI系统来说,基本思想没有发生变化,变化的仅仅是技术选型,用大数据架构替换掉BI的组件1、没有BI下如此完备的Cube架构,虽然目前有kylin,但是kylin的局限性非常明显,远远没有BI下的Cube的灵活度和稳定度,因此对业务支撑的灵活度不够, 2、存在大量报表,或者复杂的钻取的场景,需要太多的手工定制化 3、同时该架构依旧            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-16 19:14:45
                            
                                88阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            随着公司业务的增长,大量和业务、流程、规则相关的半结构化数据也爆发式增长。但数据分散在公司的各个系统中,如何将它们汇总并形成统一的企业级数据仓库,使企业灵活,高效的运用成了难题。如需将分散的各个底层数据汇总则需建立完整的体系,支撑风控的大数据框架则是重中之重。拥有5000万+注册用户;13亿+设备标签;100亿+行为数据;1500万+行业关注名单等海量多维数据的拍拍信则是从这几个方面落实:1. 数            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-10 22:07:48
                            
                                94阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
             上图就是lambda结构的一个示意, 来自图书Big Data Principles and best practices of scalable realtime data system, 该书的作者就是lambda架构的创造者Nathan Marz。大数据的技术手段百花齐放,&nbs            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-24 23:49:12
                            
                                102阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            何谓五横,基本还是根据数据的流向自底向上划分五层,跟传统的数据仓库其实很类似,数据类的系统,概念上还是相通的,分别为数据采集层、数据处理层、数据分析层、数据访问层及应用层。同时,大数据平台架构跟传统数据仓库有一个不同,就是同一层次,为了满足不同的场景,会采用更多的技术组件,体现百花齐放的特点,这是一个难点。具体见下图示例,这张图是比较经典的,也是妥协的结果,跟当前网上很多的大数据架构图都可以作一定            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-16 17:47:49
                            
                                97阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Lambda架构Lambda架构提供了一个结合实时数据和Hadoop预先计算(离线计算批处理层)的数据环境的混合平台, 以提供一个实时的数据试图。分层架构:批处理层(离线处理数据),实时处理层(与批处理层数据采集点击和访问的行为),服务层(收集用户信息等):把批处理曾的数据进行处理,进行前端的互动。一 批处理层:通过HDFS进行数据的存储,然后mapreduce进行计算(也可换成可用spark计算            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-30 06:50:17
                            
                                175阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            此文为个人平时学习对大数据的个人理解笔记分享,有不对的地方还请大佬多指正,谢谢。一.什么是大数据技术?大量的数据,等级在TB=1024GB,PB,EB级别主要用于解决大量数据的 处理&分析,两大难题就是 如何存&如何算二. 一般人找大数据工作可以做什么岗位?难度级别(灾难到平民):平台—》数据挖掘/报表开发—〉实时指标分析性能调优—》数据仓库三。大数据思想和的来源。1.GFS(Go            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-11 17:21:28
                            
                                75阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            目录1. Hadoop生态体系2. Hadoop集群硬件架构3. Hadoop体系分层功能架构参考资料 导读: 从资源管理角度来看,当前的大数据系统架构主要有两种:一种是 MPP数据库架构 ,另一种是 Hadoop体系的分层架构。这两种架构各有优势和相应的适用场景。 传统的系统已无法处理结构多变的大数据,而高性能硬件和专用服务器价格昂贵且不灵活,Hadoop因此应运而生。Hadoop使用互连的廉            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-10 16:44:56
                            
                                215阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            随着大数据越来越被重视,数据采集的挑战变的尤为突出。今天为大家介绍几款数据采集平台:Apache FlumeFluentdLogstashChukwaScribeSplunk Forwarder大数据平台与数据采集任何完整的大数据平台,一般包括以下的几个过程:数据采集数据存储数据处理数据展现(可视化,报表和监控)其中,数据采集是所有数据系统必不可少的,随着大数据越来越被重视,数据采集的挑战也变的尤            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-25 19:19:49
                            
                                128阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
                 随着云计算、大数据产业的不断发展,传统使用单机数据库进行数据存储的模式已经不能满足业界日益增长需求,海量数据处理成为一个关键问题。目前主流的海量数据处理架构分为两种:1基于传统数据库及数据仓库所衍生出的MPP(Massively Parallel Processing)架构;2 基于Hadoop 并            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-14 16:15:02
                            
                                162阅读
                            
                                                                             
                 
                
                                
                    