第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法, 比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大 
转载 2023-08-24 15:20:17
118阅读
让我们一起走向未来?作者简介:全栈领域优质创作者 ?个人主页:百锦再@新空间代码工作室 ?座右铭:坚持自己的坚持,不要迷失自己!要快乐 目录让我们一起走向未来项、项集、频繁项集关联规则1. 关联规则的基本概念2. 关联规则的生成过程3. 常用的关联规则算法4. 关联规则的应用5. 关联规则的优缺点6. 示例 项、项集、频繁项集在数据挖掘中,特别是关联规则分析中,项、项集和频繁项集是三个重要的概念
 需求 按照登录用户的会员等级 和签到周期 根据一定的计算规则送积分。由于之前都是通过if else去做的控制。规则变更的时候可能需要重新调整代码甚至发布服务。由于不想再每次规则变更后需要调整代码,于是最近在确认方案, 于是最好找到了规则引擎。什么是规则引擎规则引擎,全称为业务规则管理系统,英文名为BRMS(即Business Rule Management System)。规
大数据技术和产业的蓬勃发展,使资料成为了重要的生产力,同时也使当今社会的生产关系发生了变革。大数据时代的战略意义不仅在于掌握庞大的资料信息,还在于发现和理解信息内容及信息与信息之间的关系。很多人其实并不清楚大数据到底是什么?今天,就透过大数据的定义、分析、工具、应用与案例,助你全方位解读「大数据」。一、大数据的定义大数据(Big Data), 又称作巨量资料。认识大数据,首先从大数据的特性和类型入
在一个项目上线过程中,由于一些模型数据量巨大,抽数十分缓慢,长期在黄灯状态,monitor的消息是:missing messages.处理几次类似问题后,总结了一点经验:  首先检查系统的一些参数设置是否正确,和抽数相关的参数包括: 1. 检查系统链接是否正常:SM59 2. SBIW进行传输设置: IDOC频率:多少个数据IDOC后返回一个消息I
转载 2024-03-18 17:55:52
27阅读
大数据开发工程师大数据开发,大数据平台开发,大数据系统开发,大数据应用开发等等好多种排列组合的说法其实都是类似的,都是同一种大数据猿类,只是各个公司的描述不同而已。为了更具有说服力,我在招聘网站上找了个比较通用的任职要求,大家先来看看。     首先,这种猿类对开发能力有比较高的要求,而且其实在实际工作中,大数据开发和Java后端开发是有一些关联的
转载 2024-09-29 18:16:36
24阅读
大数据挖掘中的分类、聚类和关联规则是三种核心算法类型,分别解决不同问题。以下是它们的核心概念、典型算法及大数据场景下的优化策略:1. 分类算法(Classification)目标:预测离散类别标签(如“是/否”、“A/B/C”)。典型场景:信用评分、垃圾邮件识别、用户流失预测。常用算法:算法特点大数据优化决策树(C4.5, CART)可解释性强,易过拟合分布式实现(Spark MLlib的Deci
原创 8天前
42阅读
背景美团点评酒旅运营需求在离线场景下,已经得到了较为系统化的支持,通过对离线数据收集、挖掘,可对目标用户进行T+1触达,通过向目标用户发送Push等多种方式,在一定程度上提高转化率。但T+1本身的延迟性会导致用户在产生特定行为时不能被实时触达,无法充分发挥数据的价值,取得更优的运营效果。在此背景下,
转载 2019-06-24 10:06:00
176阅读
2评论
背景美团点评酒旅运营需求在离线场景下,已经得到了较为系统化的支持,通过对离线数据收集、挖掘,可对目标用户进行T+1触达,通过向目标用户发送Push等多种方式,在一定程度上提高转化率。但T+1本身的延迟性会导致用户在产生特定行为时不能被实时触达,无法充分发挥数据的价值,取得更优的运营效果。在此背景下,运营业务需要着手挖掘用户行为实时数据,如实时浏览、下单、退款、搜索等,对满足运营需求用户进行...
原创 2021-05-12 09:23:31
445阅读
我上大学时那时候安卓的版本才到安卓4.4,在智能手机出来普及以前,各大网站的数据量并没有那么多,但是随着智能手机的普及,互联网巨头家里的数据呈现几何级增长,像什么微博,微信,视频网站的数据;需要找到合适的存储方式—>>分布式存储架构,可以水平扩展,实现存储数据类型多样化,二维可以实现高容错高吞吐量,轻松实现大文件存储(支持P级别的
原创 2023-03-15 11:01:42
572阅读
大数据大数据!浪尖浪尖聊大数据开始本文之前,希望大家参与一下下面的投票。做这个投票的主要原因是最近经常有找浪尖咨询大数据,自学,培训及找工作的事情,问题归类如下:大数据要不要培训自学一段时间,发现很痛苦,没人指导想放弃,培训费用太高了培训发现跟不上,举步维艰培训结束了,为啥面试机会甚少下面分类回答一下。1.大数据需要培训吗?对于java老鸟,因为有比较强的编程经验,可以买点视频或者找大牛付费专栏
原创 2021-03-19 13:47:02
10000+阅读
大数据大数据
原创 2021-07-23 17:57:03
10000+阅读
1.大数据对思维方式的影响是使得分析全样而非抽样、效率而非精准、相关而非因果。 2.区别:大数据侧重于对海量数据的存储、处理与分析,从海量数据中发现价值,服务于生产和生活;云计算本质上旨在整合和优化各种IT资源,并通过网络以服务的方式廉价地提供给用户;物联网的发展目标是   实现物物相连,应用创新是物联网发展的核心。   联系:从整体上看
大数据框架 系统平台 Hadoop、CDH、HDP 监控管理 CM、Hue、Ambari、Dr.Elephant、Ganglia、Zabbix、Eagle 文件系统 HDFS、GPFS、Ceph、GlusterFS、Swift 、BeeGFS、Alluxio 资源调度 YARN、Mesos 协调框架
原创 2022-07-30 00:54:47
954阅读
大数据最全知识点整理-HBase篇基础问题:1、Hbase是什么2、Hbase架构3、Hbase数据模型4、Hbase和hive的区别5、Hbase特点6、数据同样存在HDFS,为什么HBase支持在线查询,且效率比Hive快很多7、Hbase适用场景8、RowKey的设计原则9、HBase中scan和get的功能以及实现的异同?10、Scan的setCache和setBatchsetCache
今天听了一场报告会,是清华计算机系60周年系列讲座之一,主讲人是哈工大软院院长李建中教授,主题《计算和数据资源受限的大数据计算的复杂性理论与高效算法研究》,李老师介绍的大数据计算理论体系很...
原创 2022-04-29 22:22:20
2137阅读
大数据概述: 大数据的发展历程:第一阶段:萌芽期(20世纪90年代至21世纪初) 第二阶段:成熟期(21世纪前十年) 第三阶段:大规模应用期(2010年以后) 大数据的特点(简称4V):数据量大 数据类型多 处理速度快 价值密度低 大数据的特征:全面而非抽样 效率而非精确 相关而非因果 在科学研究上的四种范式: 实验科学、理论科学、计算科学、数据密集型科学大数据技术 主要包括数据采集与预处理、数据
转载 2023-11-16 09:55:28
135阅读
看过来!!!2017年,大数据已经从概念走向落地;2019年,中低端IT工程师紧随浪潮加速向大数据转型,企业对大数据人才争夺直接进入白热化阶段。因此,对于想学IT技术的、想月入过万不是梦的人而言,我建议,直接选择学习大数据技术是符合潮流和就业需求的选择。一、大数据是什么?1、大数据简介一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的
转载 2024-05-08 10:47:21
192阅读
近年来,伴随手机的普及以及移动互联网技术的迅猛发展,手机使用中产生的大数据资源的研究与应用价值受到学者们的重视。然而,合理开发、利用手机大数据的边界尚未确定,海量数据仍处于“沉睡”之中。忠实记录用户行为据2016年1月工信部发布的2015通信运营业统计公报,中国移动电话用户总数达13.06亿户。如此规模的移动电话用户群体将产生海量数据。同济大学建筑与城市规划学院副教授钮心毅介绍,手机数据包括通话详
转载 2024-01-22 19:43:20
171阅读
Spark-Core介绍计算引擎,类似MapReduce,将数据存放在内存中,减少磁盘IO,他是有scala编写的总体技术栈讲解Spark Streaming流式计算框架Spark GraphX图形计算引擎ML Base机器学习Spark SQL使用SQL处理业务优点更快易于使用Spark Sql支持多种环境运行模式Local多用于本地测试,如在 eclipse , idea 中写程序测试等。St
转载 2024-06-30 04:57:46
76阅读
  • 1
  • 2
  • 3
  • 4
  • 5