• 先说Elasticsearch的文件存储,Elasticsearch是面向文档型数据库,百度网盘:Elasticsearch核心技术与实战一条数据在这里就是一个文档,用JSON作为文档序列化的格式,比如下面这条用户数据:{"name" :     "John","sex" :      "Male","age" :      25,"birthDate": "1990/05/01","about"
    mb60479fed4442d

    发布于:1 天前

    阅读 10 评论 0 收藏 0
  • 创建 PersonDao 接口在项目的 src 目录下创建一个名为 com.mengma.ioc 的包,然后在该包中创建一个名为 PersonDao 的接口,并在接口中添加一个 add() 方法,如下所示。download:玩转Spring全家桶package com.mengma.ioc;public interface PersonDao {public void add();}3. 创建接口
    mb6056016028371

    发布于:4 天前

    阅读 20 评论 0 收藏 0
  • download:玩转N种企业级解决方案,笑傲分布式开发分布式:程序员永恒的命题。廖师兄重磅推出全网稀缺的Java分布式专题课,传授分布式修炼秘籍,带你构建完善的分布式知识体系,助你“硬技能+软实力”更上一层。课程包含分布式ID、分布式Session、分布式任务调度、分布式限流、分库分表、分布式事务六大专题,案例涵盖用户、报表、秒杀、订单等经典场景,企业常用分布式实战案例&解决方案,完整打
    mb606f2586973a4

    发布于:4 天前

    阅读 26 评论 0 收藏 0
  • download:大数据开发工程师请添加链接描述本套大数据课程中的技术体系包含目前主流的Hadoop、Spark、Flink三大技术生态圈,涵盖了企业中最常见的技术组件,可以满足大家在公司中的工作需求Q:这套课程要学多久?学完能达到什么水平呢?本套大数据学完的时间,和每个人的基础、接受能力和时间安排都有关,一般情况下,如果能保证每天听课1小时,练习至少2个小时,3~4个月是可以学完的。建议保持连续
    mb6050316eb4967

    发布于:9 天前

    阅读 97 评论 0 收藏 0
  • download:Spark3大数据实时处理-Streaming+StructuredStreaming实战.取数组中的最小值和最大值vararr=newArray();arr[0]=100;arr[1]=0;arr[2]=50;varmin=Math.min.apply(null,arr),max=Math.max.apply(null,arr);十三、取两个数组交集/*findstheinte
    mb605c78c55c038

    发布于:18 天前

    阅读 63 评论 0 收藏 0
  • Spark调优之Shuffle调优本节开始先讲解Shuffle核心概念;然后针对HashShuffle、SortShuffle进行调优;接下来对map端、reduce端调优;再针对Spark中的数据倾斜问题进行剖析及调优;最后是Spark运行过程中的故障排除。本文首发于公众号【五分钟学大数据】,本公号专注于大数据技术,分享高质量大数据原创技术文章。一、Shuffle的核心概念1. ShuffleM
    园陌

    发布于:19 天前

  • Spark调优之Shuffle调优本节开始先讲解Shuffle核心概念;然后针对HashShuffle、SortShuffle进行调优;接下来对map端、reduce端调优;再针对Spark中的数据倾斜问题进行剖析及调优;最后是Spark运行过程中的故障排除。本文首发于公众号【五分钟学大数据】,本公号专注于大数据技术,分享高质量大数据原创技术文章。一、Shuffle的核心概念1. ShuffleM
    园陌

    发布于:19 天前

  • download:人人都能学会数据分析【16周完结】为运营、产品、市场打造的”专业“课程为程序员转型产品经理打造的“破圈”课程从0到1,从工具到思维,系统掌握业务实操型数据分析知识体系这个学完达到的阶段在面试时薪资大概范围薪资范围:看个人工作经验、教育背景、项目经理,数据分析师入门8k起,项目能通过课程攒,正常10k朝上。实战项目:有招聘信息分析、电影数据分析、电商数据分析、产品优化分析等祝您学习
    mb6050305176ff6

    发布于:20 天前

  • 手把手教你做用户画像体系规划
    艾华丰

    发布于:23 天前

  • 园陌

    发布于:24 天前

  • 园陌

    发布于:24 天前

  • download:人人都能学会数据分析一、HelloWorld的条件输出获得用户输入的一个整数,参考该整数值,打印输出"HelloWorld",要求:‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬如果输入值是0,直接输出"H
    mb604f8634b3c1b

    发布于:28 天前

  • 当然也可以使用其它的方式实现取和,比如:foreach,但执行方式跟reduce是有差别的,我们后面有机会再说. 大家应该也感觉到了,使用reduce函数远没有SQL中的sum函数方便.SQL中的函数用现在比较流行的词叫声明式的API,只需要关注我要什么就可以了,而不需要像reduce一样还要我关注怎么干. 这也是SQL经久不衰的一个原因吧.Spark也很早就提供了Spark SQL模块用于支持SQL语法.可以回头看下我们先前使用的Dataset就是sql包下的:
    FusionZhu

    发布于:29 天前

  • download:学习Scala进击大数据Spark生态圈大数据如火如荼,如果你想深入学习大数据,Scala是你必学必会的内容,这将是你成为“高薪”程序员的起点,关于Scala的介绍、课程很多,但能做到如此聚焦生产真实应用的课程凤毛麟角,所以,你千万不能错过。适合人群想系统学习Scala的小伙伴想更好更深入的学习大数据热门框架(Spark&Kafka&Flink等)的小伙伴想转型大
    mb60197f1e1aeae

    发布于:2021-03-07 02:38:17

    阅读 44 评论 0 收藏 0
  • Spark调优之RDD算子调优不废话,直接进入正题!1. RDD复用在对RDD进行算子时,要避免相同的算子和计算逻辑之下对RDD进行重复的计算,如下图所示:RDD的重复计算对上图中的RDD计算架构进行修改,得到如下图所示的优化结果:RDD架构优化2. 尽早filter获取到初始RDD后,应该考虑尽早地过滤掉不需要的数据,进而减少对内存的占用,从而提升Spark作业的运行效率。本文首发于公众号:五分
    园陌

    发布于:2021-03-06 09:43:48

  • download:Spark3大数据实时处理-Streaming+StructuredStreaming实战随着云计算和大数据的快速发展,在企业中大数据实时处理场景的需求越来越多。本课针对企业级实时处理方案进行全方位的讲解,基于Spark3,在同一个项目中,学习两套实时处理的解决方案:SparkStreaming和StructuredStreaming。在框架学习的基础上,不仅带你体验完整实时处理
    mb60197f7256b58

    发布于:2021-02-27 15:26:50

    阅读 70 评论 0 收藏 0
  • BAT大佬告诉你什么是渠道,渠道的分类,以及如何调控渠道~
    艾华丰

    发布于:2021-02-22 15:06:54

  • download:Spark3大数据实时处理-Streaming+StructuredStreaming实战随着云计算和大数据的快速发展,在企业中大数据实时处理场景的需求越来越多。本课针对企业级实时处理方案进行全方位的讲解,基于Spark3,在同一个项目中,学习两套实时处理的解决方案:SparkStreaming和StructuredStreaming。在框架学习的基础上,不仅带你体验完整实时处理
    mb60197e6497b3a

    发布于:2021-02-16 00:38:55

  • 在电商网站中,订单的支付作为直接与钱挂钩的一环,在业务流程中非常重要。对于订单而言,为了正确控制业务流程,也为了增加用户的支付意愿,网站一般会设置一个支付失效时间,超过一段时间没支付的订单就会被取消。另外,对于订单的支付,还应该保证最终支付的正确性,可以通过第三方支付平台的交易数据来做一个实时对账第一个实现的效果,实时获取订单数据,分析订单的支付情况,分别实时统计支付成功的和15分钟后支付超时的情
    马鹏飞

    发布于:2021-01-31 21:47:08

  • Spark简介 Apache Spark是用于大规模数据处理的统一分析引擎,基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量硬件之上,形成集群。Spark源码从1.x的40w行发展到现在的超过100w行,有1400多位大牛贡献了代码。整个Spark框架源码是一个巨大的工程。下面我们一起来看下spark的底层执行原理。Spark运行流
    园陌

    发布于:2021-01-29 20:15:47

  • 数据进阶学习~
    艾华丰

    发布于:2021-01-27 12:13:07

  • 数据进阶学习~
    艾华丰

    发布于:2021-01-27 12:13:01

  • FlinkCEP是在Flink上层实现的复杂事件处理库。它可以让你在无限事件流中检测出特定的事件模型,有机会掌握数据中重要的那部分。官网文档:https://ci.apache.org/projects/flink/flink-docs-stable/zh/dev/libs/cep.html这里给个demo,对比下不用cep和用cep的区别,实现目标:从目标csv中读取模拟登录的数据,实时检测,如
    马鹏飞

    发布于:2021-01-25 09:14:59

  • 网站一般都需要根据广告点击量来制定对应的定价策略和调整市场推广的方式,一般也会收集用户的一些偏好和其他信息,这里实现一个统计不同省份/或者市用户对不同广告的点击情况,有助于市场部对于广告的更精准投放,并且要防止有人恶意点击,不停的点同一个广告(当然同一个ip一直点不同的广告也是一样)准备的日志文件ClickLog.csv:543462,1715,beijing,beijing,1512652431
    马鹏飞

    发布于:2021-01-24 16:56:41

  • spark 参数; 日志查看;性能调优;一致性问题
    zhsusn

    发布于:2021-01-20 16:33:27

    阅读 45 评论 0 收藏 0
  • download:大数据开发工程师大数据开发工程师【完结】本套大数据课程中的技术体系包含目前主流的Hadoop、Spark、Flink三大技术生态圈,涵盖了企业中最常见的技术组件,可以满足大家在公司中的工作需求Q:这套课程要学多久?学完能达到什么水平呢?本套大数据学完的时间,和每个人的基础、接受能力和时间安排都有关,一般情况下,如果能保证每天听课1小时,练习至少2个小时,3~4个月是可以学完的。建
    mb5ff80f9d15613

    发布于:2021-01-15 13:49:36

    阅读 76 评论 0 收藏 0
  • 接着https://blog.51cto.com/mapengfei/2581240这里用Flink来实现对APP在每个渠道的推广情况包括下载、查看、卸载等等行为的分析因为之前的文章都是用scala写的,这篇用java来实现一波,分别演示下用aggregate聚合方式和process方式的实现和效果整体思路1、准备好数据源:这里用SimulatedSource来自己随机造一批数据2、准备数据输入样
    马鹏飞

    发布于:2021-01-10 21:13:17

  • 数据应用系列(1)-ab测试
    艾华丰

    发布于:2021-01-06 16:38:35

  • 跟https://blog.51cto.com/mapengfei/2580330类似场景,来从Nginx、Apache等web服务器的日志中读取数据,实时统计出来访问热度最高的TOPN访问URL,并且要确保数据乱序的处理,lag等情况下,还要确认数据的准确性目标:从log文件中读取数据(也可以参考上一篇从kakfa中),取http的method为get的请求,并且把静态文件访问过滤掉,进行实时统
    马鹏飞

    发布于:2021-01-03 17:09:18

  • 从日志中读取数据做一些统计聚合,最终把想要的数据输出,基本是每个公司都会有的场景,比如用户分析,商品分析,实时大屏等等,我们最早的做法是全部读出来,写到redis或者es去,然后web端再去实时查询统计,其实有很多的弊端要么每次请求都会去重新算一遍耗性能不说还慢的不行,业务方接受不了或者直接把统计信息存进去,但要实时统计就比较麻烦,比如1小时存一个点,那业务方可能要的是当前10:05-11:05的
    马鹏飞

    发布于:2021-01-01 23:23:20

推荐作者 更多
  • 王春海

    3099W+
    人气
    6208
    评论
    2763
    点赞
  • 罗勇

    3W+
    人气
    2
    评论
    5
    点赞
  • 更多作者
最新热评文章
o114958788:arp -a
王春海:从你的内网SQL Server和Web服务器到Internet,有2级路由器。 你需要在多WAN口路由器,映射端口到TMG服务器,再在TMG发布SQL Server及Web服务器。
wx60740d100692c:图片全部都无法查看额,大佬。403 Forbidden。没有权限?
wx6073eec9b01b9:老师讲的非常详细,事例
咖啡:可以写一个自己学习excle的技巧,比罗列这个要好很多~
写文章