马云曾经说过,“互联网还没搞清楚的时候,移动互联来了;移动互联还没搞清楚的时候,大数据来了。”  大数据的应用其实早已渗透到人们生活中的方方面面:亚马逊运用大数据为客户推荐商品信息,阿里用大数据成立了小微金融服务集团,而谷歌更是计划用大数据接管世界??当下,很多行业都开始增加对大数据的需求。大数据时代不仅处理着海量的数据,同时也加工、传播、分享它们。不知不觉中,数据可视
转载 精选 2014-12-23 14:38:50
1316阅读
一面算法问了4道都比较简单,分别考的二分,递归,双指针以及动态规划。1.二分搜索704. 二分查找力扣原题,注意边界条件,以及是否能取等号即可。2.二分搜索(递归实现)704. 二分查找代码如下:public int search(int[] nums, int left, int right, int target) { while (left <= right){
本文来说下团(Leaf)分布式ID算法 文章目录概述Leaf特性Leaf-segment数据库方案双buffer优化Leaf高可用容灾Leaf-snowflake方案弱依赖ZooKeeper解决时钟问题Leaf现状本文小结 概述在复杂分布式系统中,往往需要对大量的数据和消息进行唯一标识。如在团点评的金融、支付、餐饮、酒店、猫眼电影等产品的系统中,数据日渐增长,对数据分库分表后需要有一个唯一ID
分享嘉宾:张鸿志博士 团 算法专家编辑整理:廖媛媛 美的集团导读:团作为中国最大的在线本地生活服务平台,连接着数亿用户和数千万商户,其背后蕴含着丰富的与日常生活相关的知识。团知识图谱团队从2018年开始着力于图谱构建和利用知识图谱赋能业务,改善用户体验。具体来说,“团大脑”是通过对团业务中千万数量级的商家、十亿级别的商品和菜品、数十亿的用户评论和百万级别的场景进行深入的理解来构建用户、商
前言推荐系统并不是新鲜的事物,在很久之前就存在,但是推荐系统真正进入人们的视野,并且作为一个重要的模块存在于各个互联网公司,还是近几年的事情。随着互联网的深入发展,越来越多的信息在互联网上传播,产生了严重的信息过载。如果不采用一定的手段,用户很难从如此多的信息流中找到对自己有价值的信息。解决信息过载有几种手段:一种是搜索,当用户有了明确的信息需求意图后,将意图转换为几个简短的词或者短语的组合(即q
团的技术架构图flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka队列等众多外部存储系统中,一般的采集需求,通过对flume的简单配置即可实现,Flume针对特殊场景也具备良好的自定义扩展能力,因此,flume可以适用于大部分的日常数据采集场景sqoopsqoop是apache旗下一款“Hadoop和关系数据库服务器之间
相信大家点外卖的时候都会注意到“预估到达时间”这一栏,那你是否好奇过这个时间是怎么得出来的呢?简单用距离除以速度?还是结合送餐距离、出餐时间和天气情况等更多动态因素?今天团官方给了我们正确答案:首次公开外卖配送中“预估到达时间”的算法规则。 (图片来自团官方) 据团官方介绍,其算法模型得出的“预估到达时间”并不只有一个,而是四个:即“模型预估时间”和包括【城市特性保护时间】、【分段保
前言团最初的数据处理以Hive SQL为主,底层计算引擎为MapReduce,部分相对复杂的业务会由工程师编写MapReduce程序实现。随着业务的发展,单纯的Hive SQL查询或者MapReduce程序已经越来越难以满足数据处理和分析的需求。一方面,MapReduce计算模型对多轮迭代的DAG作业支持不给力,每轮迭代都需要将数据落盘,极大地影响了作业执行效率,另外只提供Map和Reduce这
文章目录1、 Leaf-segment号段模式1.1 数据库配置1.2 导入并修改leaf项目1.3 Leaf-segment双buffer模式1.4 Leaf segment监控1.5 优缺点2.Leaf-snowflake2.1 Leaf-snowflake的启动过程2.2 优缺点 目前主流的分布式ID生成方式,大致都是基于数据库号段模式和雪花算法(snowflake),而团(Leaf)
问题:在一个无序序列中,查找给定区间中的第K大的数Method 1:先排序,然后直接找到第K大的数 这种方法最常规、最易想到且没有限制条件;但是效率比较低,时间复杂度为O(n*log n)(采用高效率的排序算法) 若采用某些效率比较高的排序算法,例如快速排序算法、堆排序算法,其时间复杂度均为O(n*log n)Method 2:进行K次线性扫描...
转载 2021-06-17 14:05:47
192阅读
问题:在一个无序序列中,查找给定区间中的第K大的数Method 1:先排序,然后直接找到第K大的数 这种方法最常规、最易想到且没有限制条件;但是效率比较低,时间复杂度为O(n*log n)(采用高效率的排序算法) 若采用某些效率比较高的排序算法,例如快速排序算法、堆排序算法,其时间复杂度均为O(n*log n)Method 2:进行K次线性扫描...
转载 2022-03-20 15:33:44
10000+阅读
关注“hadoop技术学习”这个公众号的同学越来越多,增长很快,不是说这个公众号多吸引人,倒是可以看出了国内
转载 2021-07-29 16:28:49
235阅读
编者按:在用户意图明确时,我们通常用搜索引擎来解决互联网时代的信息过载问题,但当用户的意图不明确或者很难用清晰的语义表达,搜索引擎就无能为力。此时,借助推荐系统通过用户行为的分析理解其意图,为其推送个性化的结果,便成为一种更好的选择。团作为国内发展较快的O2O网站,有着大量的用户和丰富的用户行为,这些为推荐系统的应用和优化提供了很好的条件。本文由
 近日,第三方互联网大数据监测机构Trustdata发布了《2018年Q1中国移动互联网行业发展分析报告》,对第一季度的移动互联网行业发展情况进行了盘点。报告显示,互联网外卖行业格局进一步明晰,团外卖的领先优势继续扩大。在用户端,团外卖独立APP日活跃用户数量超过饿了么与百度外卖总和。在商户端,团外卖商家版DAU近120万,以倍数级优势拉开与竞对的差距。报告显示,2018年第一季度
背景数据,已经成为互联网企业非常依赖的新型重要资产。数据质量的好坏直接关系到信息的精准度,也影响到企业的生存和竞争力。Michael Hammer(《Reengineering the Corporation》一书的作者)曾说过,看起来不起眼的数据质量问题,实际上是拆散业务流程的重要标志。 数据质量管理是测度、提高和验证质量,以及整合组织数据的方法等一套处理准则,而体量大、速度快和多样性的特点,决
转载 2023-05-29 11:00:43
1244阅读
9月13日(北京)高性能计算、数据中心端到端互连方案提供商Mellanox今日宣布,国内最大的生活服务电商平台团点评现已在其人工智能和大数据平台部署 Mellanox 端到端25GbE以太网络。近来随着移动互联网的飞速发展,通过线上完成消费决策及交易,线下实际消费的O2O模式也吸引了越来越多的用户。作为国内最大的生活服务电商平台,团点评已经为6亿注册用户、超450万合作商户提供各类生活娱乐相关
“忘掉大数据“法”:大数据修炼要五讲四几经思考,定下“忘掉大数据”这个题目,开始酝酿框架及骨干观点,偶尔在朋友圈发些感悟,但迟迟没有系统的形诸文字,直到最近,应众多朋友要求终于动笔,整整推迟了两年!“忘掉大数据”系列将分为“道”、“法”、“术”三篇,“道”篇就是之前发布的“万物皆数据,数...
转载 2016-06-27 20:02:00
24阅读
2评论
# 团的大数据架构 团作为中国领先的本地生活服务平台,每天都会产生大量的数据。为了更好地分析和利用这些数据团搭建了一套强大的大数据架构。本文将介绍团的大数据架构,并通过代码示例解释其核心技术。 ## 大数据架构概览 团的大数据架构主要包括数据采集、数据存储、数据处理和数据应用四个主要环节。在这个过程中,主要使用的技术包括Hadoop、Spark、Kafka、HBase等。 下面
原创 2024-04-26 07:48:14
331阅读
原创 lightcity 光城 2018-10-13机器学习数据0.说在前面1.单变量分布2.双变量分布3.作者的话0.说在前面昨天看了一下机器学习的东西,发现在做特征工程时,需要用到seaborn的可视化方法。特别是涉及变量置键的关系强度,对于模型的选择非常重要,那么今天一起来学习一下,有关可视化的两个分布,分别是单变量分布及双变量分布!同时介绍一下Jupter的几个快捷键,哈哈~~,之前
c++
转载 2021-03-18 13:31:50
133阅读
机器学习数据0.说在前面1.单变量分布2.双变量分布3.作者的话0.说在前面 昨天看了一下机器学习的东西,发现在做特征工程时,需要用到seaborn的可视化方法。特...
  • 1
  • 2
  • 3
  • 4
  • 5