今天遇见一个问题:大家都知道一件事:没索引的数据库基本上查不了大数据。 比如说:有条数据有20亿条数据。然后查询某个数据,如果这个数据上没有索引,当场GG。我们这边创建了一个索引,是按照时间进行索引的。按照时间进行文件分区。 比如说:一日的数据存在一个文件中,下一个日的数据存在下一个文件分区。查询的时候首先定位到:时间点,然后通过时间点定位到磁盘空间,查询该空间。我觉得这个人是个人才。核心要点:
转载
2024-04-09 10:03:11
61阅读
查找算法查找( Search)是指从一批记录中找出满足指定条件的某一记录的过程,查找又称为检索。查找算法广泛应用于各类应用程序中。因此,一个有效的查找算法往往可以大大提高程序的执行效率。在实际应用中,数据的类型千变万化,每条数据项往往包含多个数据域。但是,在执行查找操作时,往往只是指定一个或几个域的值,这些作为查找条件的域称为关键字(Key),关键字分为两类。在实际应用中,针对不同的情况往往可以选
转载
2023-11-29 09:39:38
36阅读
本文根据《大话数据结构》一书,实现了Java版的顺序查找、折半查找、插值查找、斐波那契查找。注:为与书一致,记录均从下标为1开始。顺序表查找顺序查找 顺序查找(Sequential Search):从第一个到最后一个记录依次与给定值比较,若相等则查找成功。 顺序查找优化:设置哨兵,可以避免每次循环都判断是否越界。在数据量
转载
2023-08-24 15:18:21
47阅读
一、查找1、位图法10亿个正整数,只有其中1个数重复出现过,要在O(n)的时间里面找出这个数,内存要尽可能少(小于100M)。 (1)首先看一下10亿个正整数,正整数可以表示的范围为1到2的31次方-1。 10亿也就是1*10^9,2^31次方=2*1024*1024*1024>20亿 再想起int为32位。 再想起位图法。 位图法也就是对于出现的数,其中每1bit代表这个数,如果该位为1,
转载
2024-08-26 00:33:35
46阅读
1 单进程 Redis采用单进程模型来处理客户端的请求。对读写等时间的响应是通过对epoll函数的包装来做到的。Redis的实际处理速度完全依靠主进程的执行效率。 Epoll是Linux内核为处理大批量文件描述符而作了改进的epoll,是Linux下多路复用IO接口select/poll的增强版本,它能显著提高程序在大量并发连接中只有少量活跃情况下的系统C
转载
2024-09-30 16:21:04
19阅读
一个10G的关键词的log,找出词频最高的前K个词,设可用内存为2G左右 分析:词频统计;二是如何在有限内存的下找出词频的前K大个词。1)词频统计 词频统计,我们很自然的会想到使用hash。但是直接hash内存是放不下的啊…怎么办?其实对于有限内存下的大文件处理,都可总结为归并的思想,不过要注意归并时的分段亦是有学问的。请比较
转载
2024-04-17 01:54:05
45阅读
redis基于内存,查询速度快快的原因:1、完全基于内存,绝大部分请求是纯粹的内存操作,非常快速。数据存在内存中,类似于HashMap,HashMap的优势就是查找和操作的时间复杂度都是O(1);2、数据结构简单,对数据操作也简单,Redis中的数据结构是专门进行设计的;3、采用单线程,避免了不必要的上下文切换和竞争条件,也不存在多进程或者多线程导致的切换而消耗 CPU,不用去考虑各种锁的问题,不
转载
2023-05-25 10:31:29
55阅读
四个月前在力扣上看到一道题:小张刷题计划
为了提高自己的代码能力,小张制定了 LeetCode 刷题计划,他选中了 LeetCode 题库中的 n 道题,编号从 0 到 n-1,并计划在 m 天内按照题目编号顺序刷完所有的题目(注意,小张不能用多天完成同一题)。
在小张刷题计划中,小张需要用 time[i] 的时间完成编号 i 的题目。此外,小张还可以使用场外求助功能,通过询问他的好朋
一、什么是Redis 概念:Redis (REmote DIctionary Server)
是用
C
语言开发的一个开源的高性能键值对( key-value
)数据库。 特征: &
转载
2023-07-05 12:39:14
57阅读
前段时间写的,把老师留的作业写得详细了些,现在把它贴上来,有错误欢迎指正,有需要改进的地方也欢迎提出! 1. 题目要求 1.数据:sentencesFile.txt是英文语句集合文件。句子之间有字符‘\n’分割,sentencesFile.txt文件大小统计句子前三个字节出现的频率->映射到按顺序存放的各个桶->合并数据量较少的桶->划分为文件->分别在每个文件中排序->结束伪码: while(!EOF) { line = readline(file); hash(line); } if(the number in some barrels are little)
转载
2013-06-25 19:51:00
80阅读
2评论
一、find 从当前目录递归向下查找各个子目录,查找符合要求的文件或目录并显示在终端。 find [搜索范围] [选项] find / -name *.txt,就是查找根目录下所有后缀名为txt的文件。 +n表示大于,-n表示小于,n表示正好。 二、locate 快读定位指令,但是需要一个locat ...
转载
2021-09-23 11:01:00
182阅读
2评论
我上大学时那时候安卓的版本才到安卓4.4,在智能手机出来普及以前,各大网站的数据量并没有那么多,但是随着智能手机的普及,互联网巨头家里的数据呈现几何级增长,像什么微博,微信,视频网站的数据;需要找到合适的存储方式—>>分布式存储架构,可以水平扩展,实现存储数据类型多样化,二维可以实现高容错高吞吐量,轻松实现大文件存储(支持P级别的
原创
2023-03-15 11:01:42
569阅读
大数据啊大数据!浪尖浪尖聊大数据开始本文之前,希望大家参与一下下面的投票。做这个投票的主要原因是最近经常有找浪尖咨询大数据,自学,培训及找工作的事情,问题归类如下:大数据要不要培训自学一段时间,发现很痛苦,没人指导想放弃,培训费用太高了培训发现跟不上,举步维艰培训结束了,为啥面试机会甚少下面分类回答一下。1.大数据需要培训吗?对于java老鸟,因为有比较强的编程经验,可以买点视频或者找大牛付费专栏
原创
2021-03-19 13:47:02
10000+阅读
大数据啊大数据
原创
2021-07-23 17:57:03
10000+阅读
//查找最大数和次大数 import java.util.Scanner; public class App5_2 { public static void main(String[] args) throws Exception { int i,max,sec; int []a=new int[8
原创
2022-06-08 12:46:55
87阅读
1.大数据对思维方式的影响是使得分析全样而非抽样、效率而非精准、相关而非因果。 2.区别:大数据侧重于对海量数据的存储、处理与分析,从海量数据中发现价值,服务于生产和生活;云计算本质上旨在整合和优化各种IT资源,并通过网络以服务的方式廉价地提供给用户;物联网的发展目标是 实现物物相连,应用创新是物联网发展的核心。 联系:从整体上看
转载
2024-01-16 00:39:18
318阅读
大数据框架 系统平台 Hadoop、CDH、HDP 监控管理 CM、Hue、Ambari、Dr.Elephant、Ganglia、Zabbix、Eagle 文件系统 HDFS、GPFS、Ceph、GlusterFS、Swift 、BeeGFS、Alluxio 资源调度 YARN、Mesos 协调框架
原创
2022-07-30 00:54:47
954阅读
大数据最全知识点整理-HBase篇基础问题:1、Hbase是什么2、Hbase架构3、Hbase数据模型4、Hbase和hive的区别5、Hbase特点6、数据同样存在HDFS,为什么HBase支持在线查询,且效率比Hive快很多7、Hbase适用场景8、RowKey的设计原则9、HBase中scan和get的功能以及实现的异同?10、Scan的setCache和setBatchsetCache
今天听了一场报告会,是清华计算机系60周年系列讲座之一,主讲人是哈工大软院院长李建中教授,主题《计算和数据资源受限的大数据计算的复杂性理论与高效算法研究》,李老师介绍的大数据计算理论体系很...
原创
2022-04-29 22:22:20
2134阅读
Spark-Core介绍计算引擎,类似MapReduce,将数据存放在内存中,减少磁盘IO,他是有scala编写的总体技术栈讲解Spark Streaming流式计算框架Spark GraphX图形计算引擎ML Base机器学习Spark SQL使用SQL处理业务优点更快易于使用Spark Sql支持多种环境运行模式Local多用于本地测试,如在 eclipse , idea 中写程序测试等。St
转载
2024-06-30 04:57:46
76阅读