大数据概念大数据时代:信息化浪潮发生时间标志解决问题第一次浪潮1980年前后个人电脑信息处理第二次浪潮1995年前后互联网信息传输第三次浪潮2010年前后物联网,云计算,大数据信息爆炸信息化浪潮技术支持:存储技术,计算技术,网络技术数据产生方式:第一阶段:运营式系统阶段第二阶段:用户原创内容阶段(博客,微信,自媒体)第三阶段:感知式系统阶段(监控,传感器等)大数据特性(4V):volume大量化
大数据”一词近年来在IT行业很火热,相信大家都有过这样体验,在购物软件上购买或者浏览了一件商品,下次再购物时会收到同类商品推送,这是因为我们浏览记录和购物记录都会存到软件后台数据里面,商家会根据这些数据预测我们感兴趣商品,这就是大数据应用之一。大数据又叫做巨量资料,指无法在一定时间范围内使用常规工具进行捕捉、管理和处理数据集合,是需要新处理模式才能具有的更强决策力、洞察发现力和流程
原创 2021-04-01 17:45:31
1024阅读
大数据”一词近年来在IT行业很火热,相信大家都有过这样体验,在购物软件上购买或者浏览了一件商品,下次再购物时会收到同类商品推送,这是因为我们浏览记录和购物记录都会存到软件后台数据里面,商家会根据这些数据预测我们感兴趣商品,这就是大数据应用之一。 大数据又叫做巨量资料,指无法在一定时间范围内使用常规工具进行捕捉、管理和处理数据集合,是需要新处理模式才能具有的更强决策力、洞察发现力和流
转载 2021-04-03 21:17:34
991阅读
2评论
软件开发中迭代(转载) 在RUP中,迭代被定义为:迭代包括产生产品发布(稳定、可执行产品版本)全部开发活动和要使用该发布必需所有其他外围元素。这个定义太学究气,半天看不明白。这样解释可能更容易理解:我们开发一个产品,如果不太复杂,会采用瀑布模型,简单说就是先需求定义,然后构建框架,然后写代码,然后测试,最后发布一个产品。这样,几个月过去了,直到最后一天发布时,大家才能见到一个产品。这样
1、大数据整体简介1、1 简介百度百科这样写道大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理数据集合,是需要新处理模式才能具有更强决策力、洞察发现力和流程优化能力海量、高增长率和多样化信息资产。其实大数据可以理解为大数据。什么叫大数据,首先数据量大,种类多,增长快,价值密度低,需要分析处理得出有价值数据。我们技术人员一般讲大数据
文章目录加速处理大数据思路动机最开始方法1. 概述2. 遇到问题3. 速度慢根本原因优化后方法1. 概述2. 具体方法(具体代码看下一章)方法一:批量查询数据,减少调用数据次数方法二:建立数据库索引并定时重建索引方法三:查询数据时指定列,不要全部查询所有列方法四:多进程运行python程序方法五:用DataX工具 将结果存入数据库推荐方法/工具一、multiprocessing:多
目录​​1 Apache Sqoop​​​​1.1 sqoop 介绍​​​​2 Sqoop 导入​​​​2.1 全量导入 mysql 表数据到 HDFS​​​​2.2 全量导入 mysql 表数据到 HIVE​​​​2.2.1 方式一:先复制表结构到 hive 中再导入数据​​​​2.2.2 方式二:直接复制表结构数据到 hive 中​​​​2.3 导入表数据子集(where 过滤)​​​​2.4
原创 2021-04-11 19:15:56
368阅读
快速搭建大数据平台 作为一名经验丰富开发者,我会通过以下步骤向刚入行小白介绍如何快速搭建大数据平台。在本文中,我们将使用 Kubernetes(K8S)来实现这一目标。Kubernetes是一种用于自动部署、扩展和管理容器化应用程序开源系统,它能够帮助我们快速搭建和管理大数据平台。 ### 整体流程 在下面的表格中列出了搭建大数据平台整体流程: | 步骤 | 内容 |
原创 6月前
9阅读
# 如何实现“mysql快速导入大数据” ## 1. 流程概述 下面是实现“mysql快速导入大数据整体流程: | 步骤 | 操作 | | ---- | ---- | | 1. | 创建一个数据库和表 | | 2. | 准备要导入数据文件 | | 3. | 使用LOAD DATA INFILE命令导入数据 | | 4. | 验证数据导入结果 | ## 2. 具体操作步
原创 11月前
61阅读
目录​​1 Flume 安装部署​​​​1.1 安装地址​​​​1.2 安装部署​​​​2 Flume 入门案例​​​​2.1 监控端口数据官方案例​​​​2.2 实时监控单个追加文件​​​​2.3 实时监控目录下多个新文件​​​​2.4 实时监控目录下多个追加文件​​ 1 Flume 安装部署 1.1 安装地址(1)Flume 官网地址:http://flume.apache.org/ (2)
原创 2021-04-11 19:34:12
165阅读
目录​​1 环境准备​​​​2 源码编译​​​​3 Spark 安装​​​​4 运行spark-shell​​​​5 词频统计WordCount​​​​5.1 MapReduce WordCount​​​​5.2 Spark WordCount​​​​5.3 编程实现​​​​5.4 监控页面​​​​6 运行圆周率​​ 1 环境准备目前Spark最新稳定版本:2.4.x系列,官方推荐使用版本,也是
原创 2021-05-04 23:47:25
321阅读
原创 2021-07-29 20:02:02
388阅读
目录​​1 Azkaban简介​​​​2 工作流​​​​2.1 为什么需要工作流调度系统​​​​2.2 工作流调度实现方式​​​​2.3 工作流调度工具之间对比​​​​3 Azkaban 调度器​​​​3.1 Azkaban 介绍​​​​3.2 Azkaban 原理架构​​​​3.3 Azkaban 三种部署模式​​​​3.3.1 solo server mode​​​​3.3.2 two-ser
原创 2021-04-11 19:52:48
139阅读
一、大数据生态系统图 Hadoop 四大组件:common、HDFS、MapReduce、YARN二、Spark简介维基百科定义:Apache Spark是一个开源集群运算框架,最初是由加州大学柏克莱分校AMPLab所开发。相对于HadoopMapReduce会在运行完工作后将中介数据存放到磁盘中,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。Spark在存储器
转载 2023-07-23 20:49:04
98阅读
背景写这篇文章主要是介绍一下我做数据仓库ETL同步过程中遇到一些有意思内容和提升程序运行效率过程。关系型数据库:  项目初期:游戏运营数据比较轻量,相关运营数据是通过Java后台程序聚合查询关系型数据库MySQL完全可以应付,系统通过定时任务每日统计相关数据,等待运营人员查询即可。  项目中后期:随着开服数量增多,玩家数量越来越多,数据数据量越来越大,运营后台查询效率越来越低。对于
【实验背景】项目中需要对数据库中一张表进行重新设计,主要是之前未分区,考虑到数据量大了以后要设计成分区表,同时要对数据库中其他表做好备份恢复工作。 【实验环境】Mysql版本:mysql-5.6.19操作系统:Ubuntu 12.04内存:32GCPU:24核  Intel(R) Xeon(R) CPU E5-2620 0 @ 2.00GHz数据:单表1.6亿条记录,大小为2
文章目录0、概述1、mysqldump导出数据+mysql导入数据1.1、使用mysqldump导出数据1.1.1、使用--tables导出指定表1.1.2、使用--tab选项将表定义文件和数据文件分开导出1.1.3、使用--fields-terminated-by选项定义数据分隔符1.1.4、使用--databases选项导出整个库或多个库1.1.5、使用--all-databases选项导出
GCD快速迭代(遍历) 函数: 该方法会开启多条子线程, 主线程也会参与执行。     因此不要传主队列。 dispatch_apply(10,  dispatch_get_global_queue(0, 0), ^(size_t index) {              }); @param 10 指定重复次数 指定10次 @param queue 追加对象Dispatch Qu
原创 2021-07-02 15:37:45
540阅读
目录​​1 SparkSession 应用入口​​​​2 词频统计WordCount​​​​2.1 基于DSL编程​​​​2.2 基于SQL编程​​​​3 数据处理分析​​​​3.1 基于DSL分析​​​​3.2 基于SQL分析​​ 1 SparkSession 应用入口Spark 2.0开始,应用程序入口为SparkSession,加载不同数据数据,封装到DataFrame/Dataset集
原创 2021-08-25 23:21:37
455阅读
目录1 Flume 定义2 Flume 基础架构2.1 Agent2.2 Source2.3 Sink2.4 Channel2.5 Event1 Flume 定义Flume 是 Cloudera 提供一个高可用,高可靠,分布式海量日志采集、聚合和传输系统。Flume 基于流式架构,灵活简单。2 Flume 基础架构Flume 组成架构如图 1-1 所示:图 1-1 Flume 组成架构下面我们来详细介绍一下 Flume 架构中组件:2.1 AgentAgent 是一个 JV
原创 2021-03-14 22:49:41
96阅读
  • 1
  • 2
  • 3
  • 4
  • 5