对于python进行数据处理来说,pandas式一个不得不用的包,它比numpy很为强大。通过对《利用python进行数据分析》这本书中介绍pandas包的学习,再加以自己的理解,写下这篇随笔,与一起喜欢数据分析的朋友分享和相互学习。 import numpy as np import pandas as pd from pandas import Series, DataFrame # 函数反
文章目录​​前言​​​​一、位图相关​​​​二、布隆过滤器相关​​​​三、哈希切割相关​​前言海量数据处理是指基于海量数据的存储和处理,正因为数据量太大,所以导致要么无法在短时间内迅速处理,要么无法一次性装入内存。对于时间问题,就可以采用位图、布隆过滤器等数据结构来解决。对于空间问题,就可以采用哈希切割等方法,将大规模的数据转换成小规模的数据逐个击破。一、位图相关题目一:给定100亿个整数,设计算
原创 2022-09-03 07:28:10
127阅读
1、给一个超过100G大小的log file ,log中存着IP地址,设计算法找到出现次数最多的IP地址?我们先考虑一下,100G大小的文件,一般是无法存到普通的计算机中的,我们的硬盘根本没这
原创 2022-11-04 10:49:49
253阅读
前言   一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何收获,那么,我也甘愿背负这样的罪名,:-),同时,此文可以看做是对这篇文章:十道海量数据处理面试题与十个方法大总结的一般抽象性总结。    毕竟受文章和理论之限,本文将摒弃绝大部分的细节,只谈方法/模式论,且注重用
转载 精选 2014-11-20 10:20:26
319阅读
十七道海量数据处理面试题与Bit-map具体解释作者:小桥流水,redfox66,July。前言    本博客内以前整理过有关海量数据处理的10道面试题(​​十道海量数据处理面试题与十个方法大总结​​),此次除了反复了之前的10道面试题之后,又一次多整理了7道。仅作各位參考,不作它用。    同一时候,程序猿编程艺术系列将又一次開始创作,第十一章以后的部分题目来源将取自下文中的17道海量数据处理
前言    本博客内曾经整理过有关海量数据处理的10道面试题),此次除了重复了之前的10道面试题之后,重新多整理了7道。仅作各位参考,不作它用。    同时,程序员编程艺术系列将重新开始创作,第十一章以后的部分题目来源将取自下文中的17道海量数据处理面试题。因为,我们觉得,下文的每一道面试题都值得重新思考,重新深究与学习。再者,编程艺术系列的前十章也是这么来的。若您有任何问题或建议,欢迎不吝指正
转载 2012-07-31 13:54:00
60阅读
2评论
十七道海量数据处理面试题与Bit-map具体解释作者:小桥流水,redfox66,July
转载 2014-07-01 16:31:00
48阅读
2评论
问题一:给你A,B两个文件,各存放50亿条URL,每条URL占用字节,内存限制是4G,让你找出A,B文件共同的URL。如果是三个乃至n个文件呢? 方案: 先算一下4G有多少位(bit),4G = 2^32 * 8 bit = 320亿 bit,n才50亿,可以用位图法。将其中一个文件中的url使
转载 2020-03-06 14:40:00
186阅读
2评论
十七道海量数据处理面试题与Bit-map具体解释作者:小桥流水,redfox66,July。前言 本博客内以前整理过有关海量数据处理的10道面试题(十道海量数据处理面试题与十个方法大总结),此次除了反复了之前的10道面试题之后,又一次多整理了7道。仅作各位參考,不作它用。 同一时候,程序猿编程艺术系...
转载 2014-10-03 10:21:00
48阅读
2评论
十七道海量数据处理面试题与Bit-map具体解释作者:小桥流水,redfox66,July。前言 本博客内以前整理过有关海量数据处理的10道面试题(十道海量数据处理面试题与十个方法大总结),此次除了反复了之前的10道面试题之后,又一次多整理了7道。仅作各位參考,不作它用。 同一时候,程序猿编程艺术系...
十道海量数据处理面试题
转载 精选 2014-11-19 15:50:55
531阅读
1、海量日志数据,提取出某日访问百度次数最多的那个IP 此题,在我之前的一篇文章算法里头有所提到,当时给出的方案是:IP的数目还是有限的,最多2^32个,所以可以考虑使用hash将ip直接存入内存,然后进行统计。再详细介绍下此方案:首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大
转载 2021-06-18 09:10:33
473阅读
十道海量数据处理面试题
转载 2021-06-21 16:19:14
181阅读
# 大数据处理Hive面试题及答案 在大数据领域,Apache Hive是一个为数据仓库提供数据抽象的工具,让用户能够通过类似SQL的查询语言(HiveQL)来进行数据分析。本文将介绍一些常见的Hive面试题,并结合示例代码和图表,帮助读者更好地理解Hive的使用。 ## 1. Hive的基本概念 Hive是一个数据仓库基础框架,旨在处理和分析存储在Hadoop分布式文件系统(HDFS)上的
原创 22天前
44阅读
1、海量日志数据,提取出某日访问...
转载 2021-06-12 00:16:20
68阅读
前言 一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢
原创 2023-08-04 10:54:45
88阅读
1、海量日志数据,提取出某日访问...
转载 2021-06-12 00:16:22
150阅读
徐海蛟 教学用途何谓海量大数据处理? 所谓海量大数据处理,无非就是基于海量大数据上的存储、处理、操作。何谓海量,就是数据量大,所以导致要么是无法在较短时间内迅速解决,要么是数据太大,导致无法一次性装入内存。 那解决办法呢?针对时间,我们可以采用巧妙的算法搭配合适的数据结构,如Bloom filter/Hash/bit-map/堆/数据库或倒排索引/trie树,针对空间,无非就一个办法:大而化小
转载 精选 2013-09-29 15:35:43
623阅读
无私分享两道百度作业帮的测试开发面试题!整理不易,请给赞~【第一题】一共有二十五匹马,五个赛道,每个赛道每次只能跑一匹马。问:最少多少次能选出3匹最快的马?(不能记录每匹马跑完全程所用的时间,只能通过比较谁先到达终点来判断两匹马的孰快孰慢)思路如下:1、前五次:25匹马,分成5组,每组赛1次,共赛5...
原创 2021-07-29 18:10:13
161阅读
1.Flink基础 1. 简单介绍一下 Flink Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多高抽象层的API以便用户编写分布式任务: DataSet API, 对静态数据进行批 ...
转载 2021-09-01 17:04:00
606阅读
2评论
  • 1
  • 2
  • 3
  • 4
  • 5