大数据神器_51CTO博客

大数据开发神器——Scrapy Spider框架

大数据学习估计很多同学跟我一样都是从学习Python的爬虫开始的。当然你可以使用lxml、BeautifulSoup、Request等第三方库来编写自己的爬虫。但是当需要爬取海量数据，特别是大数据的实际应用中，若自己编写爬虫，是一件特别困难的事情。还好Python提供了类似Scrapy等类似的爬虫框架本人对于大数据学习创建了一个小小的学习圈子，为各位提供了一个平台，大家一起来讨论学习大数据。欢迎各

大数据

大数据学习

大数据开发

大数据入门

数据分析

原创

金罗老师

2018-11-28 23:01:04

441阅读

Data Lake Analytics，大数据的ETL神器！

0. Data Lake Analytics（简称DLA）介绍数据湖（Data Lake）是时下大数据行业热门的概念：https://en.wikipedia.org/wiki/Data_lake。基于数据湖做分析，可以不用做任何ETL、数据搬迁等前置过程，实现跨各种异构数据源进行大数据关联分析，

数据

mysql

数据源

异构

html

转载

mb5fdb131956bf3

2019-03-01 16:56:00

191阅读

2评论

大数据快速入门（07）：数据仓库神器 Hive

数据仓库必备

sql

mapreduce

hive

大数据

计算引擎

原创

wx602e765b83a08

2021-09-01 13:56:54

208阅读

【拿走不谢】大数据高效查询神器--bitmap

1.提升 hive 中精确去重性能，代替hive 中的 count(distinct uuid)；2.节省 hive 存储，使用 bitmap 对数据压

hive

hadoop

bitmap

github

jar

原创

不吃西红柿丶

2022-07-28 06:16:01

361阅读

Python处理大数据，推荐4款加速神器

上面搜索是新功能，大家可以体验看看在数据科学计算、机器学习、以及深度学习领域，Python 是最受欢迎的语言。Python 在数据科学领域，有非常丰富的包可以选择，numpy、scipy、pandas、scikit-learn、matplotlib。但这些库都仅仅受限于单机运算，当数据量很大时，比如50GB甚至500GB的数据集，这些库的处理能力都显得捉襟见肘，打开都很困难了，更别说分析了。本

python

github

数据

并行计算

机器学习

转载

程序员小猿

2021-08-11 11:06:57

625阅读

深入探索Apache Flume：大数据领域的数据采集神器

引言：随着大数据技术的快速发展，企业和组织需要从各种来源采集海量数据。数据采集是大数据处理流程中至关重要的一环，而Apache Flume作为一个可靠的、可扩展的数据采集工具，在大数据领域扮演着重要的角色。本文将深入探索Apache Flume的技术原理和核心组件，并通过代码实例展示其在实际应用中的使用方法。一、Apache Flume概述 Apache Flume是一个开源的、分布式的数据采集

Source

数据

hdfs

原创

上进小菜猪

2023-05-24 23:59:16

255阅读

安利一个Python大数据分析神器！

对于Pandas运行速度的提升方法，之前已经介绍过很多回了，里面经常提及Dask，很多朋友没接触过可能不太了解，今天就推荐一下这个神器。1、什么是Dask？Pandas和Numpy大家都不陌生了，代码运行后数据都加载到RAM中，如果数据集特别大，我们就会看到内存飙升。但有时要处理的数据并不适合RAM，这时候Dask来了。Dask是开源免费的。它是与其他社区项目（如Numpy，Pandas和Scik

Python

转载

涛哥聊python

2020-12-06 16:21:24

212阅读

安利一个Python大数据分析神器！

对于Pandas运行速度的提升方法，之前已经介绍过很多回了，里面经常提及Dask，很多朋友没接触过可能不太了解，今天就推荐一下这个神器。1、什么是Dask？Pandas和Numpy大家都不陌生了，代码运行后数据都加载到RAM中，如果数据集特别大，我们就会看到内存飙升。但有时要处理的数据并不适合RAM，这时候Dask来了。Dask是开源免费的。它是与其他社区项目（如Numpy，Pandas和Scik

java

原创

mb5fe18e9fef50b

2021-01-18 22:44:45

311阅读

❤️大数据开发必备:推荐7款大数据开发神器工作效率提升1000%【推荐收藏】

前言大家好,我是ChinaManor,直译过来就是中国码农的意思,我希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,平凡但不甘于平庸的人。manor学习大数据开发满打满算也有一年了,其中也发现不少好用的大数据开发提升效率的软件,推荐给刚入门/入行的你:适用windows系统，mac用户可根据名称自行查找~~文末可一键获取7款大数据开发神器第一款 utools–你的生产力工具

linux

windows

开发工具

编程语言

mac

原创

Maynor学长

2022-03-04 18:39:35

286阅读

❤️大数据开发必备:推荐7款大数据开发神器工作效率提升1000%【推荐收藏】

前言大家好,我是ChinaManor,直译过来就是中国码农的意思,我希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,平凡但不甘于平庸的人。第一款

# Kafka

大数据技术

linux

windows

开发工具

原创

Maynor学长

2021-07-13 13:22:32

344阅读

云计算分布式大数据神器Spark实战高手之旅

从2012年1月份研究Spark到如今已经两年多的时间了。在这两年多的时间里比較彻底的研究了Spark的源码并已经在2014年4月24日编写完毕了世界上第一本Spark书籍。鉴于CSDN在大陆IT从业者中的重要影响了，决定把自己的Spark系列文章公布在其上，希望可以帮助很多其它的人掌握实战级别的S...

spark

生产环境

转载

mob604756f9c5f2

2015-12-27 09:36:00

110阅读

2评论

大数据呀大数据

我上大学时那时候安卓的版本才到安卓4.4,在智能手机出来普及以前,各大网站的数据量并没有那么多,但是随着智能手机的普及,互联网巨头家里的数据呈现几何级增长,像什么微博,微信,视频网站的数据;需要找到合适的存储方式—>>分布式存储架构,可以水平扩展,实现存储数据类型多样化,二维可以实现高容错高吞吐量,轻松实现大文件存储(支持P级别的

大数据

hadoop

mapreduce

数据

海量数据

原创

CodeMartain

2023-03-15 11:01:42

572阅读

大数据啊大数据！

大数据啊大数据！浪尖浪尖聊大数据开始本文之前，希望大家参与一下下面的投票。做这个投票的主要原因是最近经常有找浪尖咨询大数据，自学，培训及找工作的事情，问题归类如下：大数据要不要培训自学一段时间，发现很痛苦，没人指导想放弃，培训费用太高了培训发现跟不上，举步维艰培训结束了，为啥面试机会甚少下面分类回答一下。1.大数据需要培训吗？对于java老鸟，因为有比较强的编程经验，可以买点视频或者找大牛付费专栏

Java

原创

mob604756ed02fe

2021-03-19 13:47:02

10000+阅读

大数据啊大数据！

大数据啊大数据

大数据

原创

浪尖聊大数据

2021-07-23 17:57:03

10000+阅读

大数据和大数据分析大数据与大数据分析

1.大数据对思维方式的影响是使得分析全样而非抽样、效率而非精准、相关而非因果。 2.区别：大数据侧重于对海量数据的存储、处理与分析，从海量数据中发现价值，服务于生产和生活；云计算本质上旨在整合和优化各种IT资源，并通过网络以服务的方式廉价地提供给用户；物联网的发展目标是实现物物相连，应用创新是物联网发展的核心。联系：从整体上看

大数据和大数据分析

大数据

嵌入式

物联网

云计算

转载

温柔一刀

2024-01-16 00:39:18

318阅读

StyleCloud | 数据美化神器

墙裂推荐！

词云

数据

ico

原创

Python全栈开发

2022-04-07 14:54:18

210阅读

Windows数据恢复神器

点击上方蓝字关注我前言今日，我要向大家推荐一款出色的数据恢复工具，它不仅专业级别，而且完全免费，更

数据恢复

App

软件使用教程

原创

睿共享科技

11月前

58阅读

GoFakeIt—造数据神器

在软件开发和测试过程中，常常需要大量测试数据来模拟真实环境。然而，使用真实数据可能会引发隐私和安全问题，因此，生成虚拟数据成为了必不可少的需求。GoFakeIt 是一个专门为 Golang 开发的库，能够快速、便捷地生成各种类型的随机数据。它帮助开发者在开发、测试以及演示中大幅提升效率，同时规避了使用真实数据带来的风险。 GoFakeIt 特点 GoFakeIt 作为一个功能强大的 Golang

数据

Go

github

原创精选

FunTester

2024-10-15 21:20:29

307阅读

大数据框架大数据框架

大数据框架系统平台 Hadoop、CDH、HDP 监控管理 CM、Hue、Ambari、Dr.Elephant、Ganglia、Zabbix、Eagle 文件系统 HDFS、GPFS、Ceph、GlusterFS、Swift 、BeeGFS、Alluxio 资源调度 YARN、Mesos 协调框架

spark

d3

solr

原创

cn2024

2022-07-30 00:54:47

954阅读

zabbix大数据大数据base

大数据最全知识点整理-HBase篇基础问题：1、Hbase是什么2、Hbase架构3、Hbase数据模型4、Hbase和hive的区别5、Hbase特点6、数据同样存在HDFS，为什么HBase支持在线查询，且效率比Hive快很多7、Hbase适用场景8、RowKey的设计原则9、HBase中scan和get的功能以及实现的异同？10、Scan的setCache和setBatchsetCache

zabbix大数据

hbase

面试

大数据

hdfs

转载

mob64ca14173efa

4月前

0阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

大数据神器

大数据开发神器——Scrapy Spider框架

Data Lake Analytics，大数据的ETL神器！

大数据快速入门（07）：数据仓库神器 Hive

【拿走不谢】大数据高效查询神器--bitmap

Python处理大数据，推荐4款加速神器

深入探索Apache Flume：大数据领域的数据采集神器

安利一个Python大数据分析神器！

安利一个Python大数据分析神器！

❤️大数据开发必备:推荐7款大数据开发神器工作效率提升1000%【推荐收藏】

❤️大数据开发必备:推荐7款大数据开发神器工作效率提升1000%【推荐收藏】

云计算分布式大数据神器Spark实战高手之旅

大数据呀大数据

大数据啊大数据！

大数据啊大数据！

大数据和大数据分析大数据与大数据分析

StyleCloud | 数据美化神器

Windows数据恢复神器

GoFakeIt—造数据神器

大数据框架大数据框架

zabbix大数据大数据base

大数据与大数据计算

harbor 大数据 the core大数据

大数据bitemap 大数据技术

大数据 pytorch 大数据技术

Android大数据手机大数据

大数据收集，大数据入库

【大数据系列】大数据初识

大数据 Lineages 大数据技术

qualities大数据大数据 storm

大数据 on GPU 大数据技术

51CTO博客

大数据神器

大数据开发神器——Scrapy Spider框架

Data Lake Analytics，大数据的ETL神器！

大数据快速入门（07）：数据仓库神器 Hive

【拿走不谢】大数据高效查询神器--bitmap

Python处理大数据，推荐4款加速神器

深入探索Apache Flume：大数据领域的数据采集神器

安利一个Python大数据分析神器！

安利一个Python大数据分析神器！

❤️大数据开发必备:推荐7款大数据开发神器工作效率提升1000%【推荐收藏】

❤️大数据开发必备:推荐7款大数据开发神器工作效率提升1000%【推荐收藏】

云计算分布式大数据神器Spark实战高手之旅

大数据呀大数据

大数据啊大数据！

大数据啊大数据！

大数据和大数据分析 大数据与大数据分析

StyleCloud | 数据美化神器

Windows数据恢复神器

GoFakeIt—造数据神器

大数据框架大数据框架

zabbix大数据 大数据base

大数据与大数据计算

harbor 大数据 the core大数据

大数据bitemap 大数据技术

大数据 pytorch 大数据技术

Android大数据 手机大数据

大数据收集，大数据入库

【大数据系列】大数据初识

大数据 Lineages 大数据技术

qualities大数据 大数据 storm

大数据 on GPU 大数据技术

大数据和大数据分析大数据与大数据分析

zabbix大数据大数据base

Android大数据手机大数据

qualities大数据大数据 storm