大数据学习估计很多同学跟我一样都是从学习Python的爬虫开始的。当然你可以使用lxml、BeautifulSoup、Request等第三方库来编写自己的爬虫。但是当需要爬取海量数据,特别是大数据的实际应用中,若自己编写爬虫,是一件特别困难的事情。还好Python提供了类似Scrapy等类似的爬虫框架本人对于大数据学习创建了一个小小的学习圈子,为各位提供了一个平台,大家一起来讨论学习大数据。欢迎各
0. Data Lake Analytics(简称DLA)介绍 数据湖(Data Lake)是时下大数据行业热门的概念:https://en.wikipedia.org/wiki/Data_lake。基于数据湖做分析,可以不用做任何ETL、数据搬迁等前置过程,实现跨各种异构数据源进行大数据关联分析,
转载 2019-03-01 16:56:00
191阅读
2评论
数据仓库必备
原创 2021-09-01 13:56:54
208阅读
1.提升 hive 中精确去重性能,代替hive 中的 count(distinct uuid);2.节省 hive 存储 ,使用 bitmap 对数据
原创 2022-07-28 06:16:01
361阅读
上面搜索是新功能,大家可以体验看看 在数据科学计算、机器学习、以及深度学习领域,Python 是最受欢迎的语言。Python 在数据科学领域,有非常丰富的包可以选择,numpy、scipy、pandas、scikit-learn、matplotlib。 但这些库都仅仅受限于单机运算,当数据量很大时,比如50GB甚至500GB的数据集,这些库的处理能力都显得捉襟见肘,打开都很困难了,更别说分析了。本
转载 2021-08-11 11:06:57
625阅读
引言: 随着大数据技术的快速发展,企业和组织需要从各种来源采集海量数据数据采集是大数据处理流程中至关重要的一环,而Apache Flume作为一个可靠的、可扩展的数据采集工具,在大数据领域扮演着重要的角色。本文将深入探索Apache Flume的技术原理和核心组件,并通过代码实例展示其在实际应用中的使用方法。一、Apache Flume概述 Apache Flume是一个开源的、分布式的数据采集
原创 2023-05-24 23:59:16
255阅读
对于Pandas运行速度的提升方法,之前已经介绍过很多回了,里面经常提及Dask,很多朋友没接触过可能不太了解,今天就推荐一下这个神器。1、什么是Dask?Pandas和Numpy大家都不陌生了,代码运行后数据都加载到RAM中,如果数据集特别大,我们就会看到内存飙升。但有时要处理的数据并不适合RAM,这时候Dask来了。Dask是开源免费的。它是与其他社区项目(如Numpy,Pandas和Scik
转载 2020-12-06 16:21:24
212阅读
对于Pandas运行速度的提升方法,之前已经介绍过很多回了,里面经常提及Dask,很多朋友没接触过可能不太了解,今天就推荐一下这个神器。1、什么是Dask?Pandas和Numpy大家都不陌生了,代码运行后数据都加载到RAM中,如果数据集特别大,我们就会看到内存飙升。但有时要处理的数据并不适合RAM,这时候Dask来了。Dask是开源免费的。它是与其他社区项目(如Numpy,Pandas和Scik
原创 2021-01-18 22:44:45
311阅读
前言大家好,我是​ChinaManor​,直译过来就是中国码农的意思,我希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,平凡但不甘于平庸的人。​​manor​​学习大数据开发满打满算也有一年了,其中也发现不少好用的大数据开发提升效率的软件,推荐给刚入门/入行的你:适用windows系统,mac用户可根据名称自行查找~~文末可一键获取7款大数据开发神器 第一款 utools–你的生产力工具
原创 2022-03-04 18:39:35
286阅读
前言大家好,我是ChinaManor,直译过来就是中国码农的意思,我希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,平凡但不甘于平庸的人。第一款
原创 2021-07-13 13:22:32
344阅读
从2012年1月份研究Spark到如今已经两年多的时间了。在这两年多的时间里比較彻底的研究了Spark的源码并已经在2014年4月24日编写完毕了世界上第一本Spark书籍。鉴于CSDN在大陆IT从业者中的重要影响了,决定把自己的Spark系列文章公布在其上,希望可以帮助很多其它的人掌握实战级别的S...
转载 2015-12-27 09:36:00
110阅读
2评论
我上大学时那时候安卓的版本才到安卓4.4,在智能手机出来普及以前,各大网站的数据量并没有那么多,但是随着智能手机的普及,互联网巨头家里的数据呈现几何级增长,像什么微博,微信,视频网站的数据;需要找到合适的存储方式—>>分布式存储架构,可以水平扩展,实现存储数据类型多样化,二维可以实现高容错高吞吐量,轻松实现大文件存储(支持P级别的
原创 2023-03-15 11:01:42
572阅读
大数据大数据!浪尖浪尖聊大数据开始本文之前,希望大家参与一下下面的投票。做这个投票的主要原因是最近经常有找浪尖咨询大数据,自学,培训及找工作的事情,问题归类如下:大数据要不要培训自学一段时间,发现很痛苦,没人指导想放弃,培训费用太高了培训发现跟不上,举步维艰培训结束了,为啥面试机会甚少下面分类回答一下。1.大数据需要培训吗?对于java老鸟,因为有比较强的编程经验,可以买点视频或者找大牛付费专栏
原创 2021-03-19 13:47:02
10000+阅读
大数据大数据
原创 2021-07-23 17:57:03
10000+阅读
1.大数据对思维方式的影响是使得分析全样而非抽样、效率而非精准、相关而非因果。 2.区别:大数据侧重于对海量数据的存储、处理与分析,从海量数据中发现价值,服务于生产和生活;云计算本质上旨在整合和优化各种IT资源,并通过网络以服务的方式廉价地提供给用户;物联网的发展目标是   实现物物相连,应用创新是物联网发展的核心。   联系:从整体上看
墙裂推荐!
原创 2022-04-07 14:54:18
210阅读
点击上方蓝字关注我 前言 今日,我要向大家推荐一款出色的数据恢复工具,它不仅专业级别,而且完全免费,更
在软件开发和测试过程中,常常需要大量测试数据来模拟真实环境。然而,使用真实数据可能会引发隐私和安全问题,因此,生成虚拟数据成为了必不可少的需求。GoFakeIt 是一个专门为 Golang 开发的库,能够快速、便捷地生成各种类型的随机数据。它帮助开发者在开发、测试以及演示中大幅提升效率,同时规避了使用真实数据带来的风险。 GoFakeIt 特点 GoFakeIt 作为一个功能强大的 Golang
原创 精选 2024-10-15 21:20:29
307阅读
大数据框架 系统平台 Hadoop、CDH、HDP 监控管理 CM、Hue、Ambari、Dr.Elephant、Ganglia、Zabbix、Eagle 文件系统 HDFS、GPFS、Ceph、GlusterFS、Swift 、BeeGFS、Alluxio 资源调度 YARN、Mesos 协调框架
原创 2022-07-30 00:54:47
954阅读
大数据最全知识点整理-HBase篇基础问题:1、Hbase是什么2、Hbase架构3、Hbase数据模型4、Hbase和hive的区别5、Hbase特点6、数据同样存在HDFS,为什么HBase支持在线查询,且效率比Hive快很多7、Hbase适用场景8、RowKey的设计原则9、HBase中scan和get的功能以及实现的异同?10、Scan的setCache和setBatchsetCache
  • 1
  • 2
  • 3
  • 4
  • 5