前言高并发,几乎是每个程序员都想拥有的经验。原因很简单:随着流量变大,会遇到各种各样的技术问题,比如接口响应超时、CPU load升高、GC频繁、死锁、大数据量存储等等,这些问题能推动我们在技术深度上不断精进。在过往的面试中,如果候选人做过高并发的项目,我通常会让对方谈谈对于高并发的理解,但是能系统性地回答好此问题的人并不多,大概分成这样几类:1、对数据化的指标没有概念:不清楚选择什么样的指标来衡
转载
2024-07-15 18:03:29
22阅读
何谓海量数据处理?
所谓海量数据处理,无非就是基于海量数据上的存储、处理、操作。何谓海量,就是数据量太大,所以导致要么是无法在较短时间内迅速解决,要么是数据太大,导致无法一次性装入内存。那解决办法呢?针对时间,我们可以采用巧妙的算法搭配合适的数据结构,如Bloom filter/Hash/bit-map/堆/数据库或倒排索引/trie树,针对空间,无非就一个办法:大而化小,分而治之(hash映射)
第一章-学习之前的认知影响股价的因素1、公司自身因素
2、心理因素
3、行业因素
4、经济因素
5、市场因素
6、政治因素金融量化投资量化投资的优势
1、避免主观情绪,人性弱点和认知偏差,选择更加客观
2、能同时包括多角度的观察和多层次的模型
3、及时跟踪市场变化,不断发现新的统计模型,寻找交易机会
4、在决定投资策略后,能通过回测验证其效果
量化策略
通过一套固定的逻辑来分析、判断和决策,自
转载
2023-09-16 20:50:28
0阅读
量化必备技能进程、线程、协程 最近再做量化系统的时候,由于 python 不是很熟悉,日行情下载数据
量化必备技能进程、线程、协程最近再做量化系统的时候,由于 python 不是很熟悉,日行情下载数据和数据清洗计算等都是单线程处理的,其速度无法忍受。
例如:日行情数据的更新,5000 左右个股票,更新一次,等待的时间可以把你验证想法的热情都浇灭,单线程的
转载
2023-07-10 11:07:30
64阅读
「Why-What-How」在讲解概念和执行上是个不错的思维模型,这次依例按此框架来拆分「数据分析」。相信很多朋友已经有了较丰富的分析经验,这里权且从个人的角度进行梳理,以资参考。为了帮助大家更好地理解本文,先贴出一张思维脑图:一. WHY:为什么要做数据分析在目前讲解数据分析的文章里,大多数会忽略数据分析本身的目的。这会导致我们在执行时,会出现动作变形的情况。以终为始,才能保证不会跑偏。个人的理
转载
2023-08-08 11:51:30
2514阅读
在实际场景中会遇到这样的一种情况:数据量很大,而且还要分页查询,如果数据量达到百万级别之后,性能会急剧下降,导致查询时间很长,甚至是超时。接下来我总结了两种常用的优化方案,仅供参考。但是需要注意的是有个前提:主键id是递增且数据有序。
转载
2023-06-26 18:29:48
461阅读
大数据迁移——Python+MySQL引言方法一:数据库复制 ——最糟糕方法二:数据库转存——最蜗牛方法三:数据库备份——最尬速方法四:内存操作Python+MySQL——最火箭 引言最近,因为课题组更换服务器,有一批数据需要做数据迁移,数据量大约150G-200G,一部分数据存储在原来服务器的MySQL上,另外一部分数据以txt文件存储在硬盘上。现在,我需要将这些数据全部迁移存储在新服务器的M
转载
2023-08-11 14:25:11
464阅读
2019独角兽企业重金招聘Python工程师标准>>>
大数据处理问题 场景:我说的大数据量处理是指同时需要对数据进行检索查询,同时有高并发的增删改操作; 对于大数据量处理,如果是互联网处理的话,一般分为下面阶段:第一阶段:所有数据都装入一个数据库,当数据量大了肯定就会出现问题,如几百万条数据,那时一个检索查询可以让你等你分钟;第二阶段:那时肯定想做缓存机制,确实可
转载
2024-01-16 11:57:10
82阅读
原标题:数据量大、分析急,该用什么软件做数据分析?数据量大,现在的软件分析效率太低,操作也麻烦,有没有更适合的数据分析软件?或许BI数据分析软件会是个好选择。奥威软件旗下的OurwayBI就是一款专做大数据可视分析的软件,能在极短时间内完成亿级数据的深度分析以及数据可视化。如果你的数据量大,不妨考虑考虑OurwayBI。OurwayBI:亿级数据秒分析1、多技术齐发力,分析秒响应光基于内存计算可以
转载
2023-10-11 15:50:47
10阅读
大家好我是L,刚刚从事量化风控的时间不久,很高兴参与了番茄风控前两期的训练营,特别是策略跟模型方面,颇有收获,今天借这个机会跟大家分享下相关的风控知识,如文中有不妥的请大家指教一.滚动率分析 滚动率分析–找出坏客户的定义。 1.1 实现详细过程 滚动率:表示客户从A时间点到B时间点,还款状态从a到还款状态b的转化比率;是两个快照数据之间还款状态的变化情况。 滚动率有两个方向,向前滚和向后滚; 向
目录3.2 报表系统架构的改进3.2.1 原有报告系统的问题:3.2.2 改进方案:3.2.2 同步模块架构设计4.3 分布式服务架构5.2.1关系型数据库现状分析——分库分表5.2.3 字表导入FDFS 模块的设计与实现5.3.2 Hive 绑定模块的设计与实现5.4 宽表合成模块5.5 索引文件生成6.2.3 增量数据同步流程https://www.doc88.com/p-2052553782
转载
2023-09-15 23:06:21
109阅读
前言在开发过程中可能会碰到某些独特的业务,比如查询全部表数据,数据量过多会导致查询变得十分缓慢。虽然在大多数情况下并不需要查询所有的数据,而是通过分页或缓存的形式去减少或者避免这个问题,但是仍然存在需要这样的场景,比如需要导出所有的数据到excel中,导出数据之前,肯定需要先查询表中数据,这个查询的过程中数据量一旦过大,单线程查询数据会严重影响程序性能,有可能过长的查询时间导致服务宕机。现在模拟使
转载
2023-06-15 09:47:19
1380阅读
1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。
2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:
select id from xuehi.com where num is null
可以在num上设置默认值0,确保表中num列没有null值,然后这样查询:
sele
转载
2023-12-28 03:34:02
106阅读
应用场景:MySQL数据量达到百万级别,并且数据更新时大部分数据重复,需要比对更新或者插入新的数据
效果:MySQL执行过程中如果数据库中存在该记录则执行对应更新操作,不存在执行插入操作,而且这些操作是在数据库引擎中完成;避免了对数据进行批量操作时,首先对重复数据进行过滤,然后进行CRUD操作,减少对数据库访问压力
语法:
INSERT [LOW_P
转载
2024-03-06 00:24:14
99阅读
大数据技术之Spark SQL一:Spark SQL的概述定义:Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程对象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。特点:易整合、统一的数据访问方式、兼容Hive、标准的数据连接DtaFrame的定义:与RDD类似,DataFrame也是一个分布式的数据容器。然而Dataframe更像是一个数据库
转载
2024-05-29 09:58:21
51阅读
# 大数据分析量化科普
在数字化时代,大数据已成为企业和个人决策的重要依据。大数据分析量化则是将大量数据进行统计分析、建模与可视化,使得数据背后的信息能够被更好地理解和应用。本文将通过一个代码示例来演示大数据分析量化的基本流程,并通过可视化工具帮助读者理解这一过程。
## 大数据分析的基本流程
大数据分析的基本流程可以大致分为以下几个步骤:
1. **数据收集**:使用各种工具和技术收集数
作者:李启方很多小白在刚接触数据分析的时候,缺乏数据思维的支持,做起分析来感觉找不准方向,很难通过分析挖掘出数据的价值,因此,我今天给刚入行的新人们分享一种通用的数据分析思维,在很多种分析场景都可以借鉴使用。我要说的就是“Why-What-How”模型,这个模型在讲解概念和执行上是个不错的思维模型,本文将按照这个模型框架来拆分数据分析,为了帮助大家更好地理解,先贴出一张思维导图:WHY:为什么要
目录模型量化原理前言1. What、Why and How1.1 What1.2 Why1.3 How2. 拓展-export参数详解3.总结参考 模型量化原理前言手写AI推出的全新TensorRT模型量化课程,链接。记录下个人学习笔记,仅供自己参考。本次课程为第一课,主要讲解量化的定义及意义。课程大纲可看下面的思维导图1. What、Why and How问题:什么是模型量化?为什么需要量化?
转载
2023-11-19 10:30:16
935阅读
MAXQDA 是一个用于质性、量化和混合方法数据分析的专业软件,适用于 Windows 和 Mac 两种操作平台,深受全球成千上万用户的喜爱。如果您需要得到一个正式的-询价单,请访始创于 1989 年,具有多年为研究者们提供强大、创新和便捷的数据分析工具的经验,助力研究项目的顺利开展。MAXQDA 可以分析的数据类型包括访谈记录、报告、表格、在线调查、焦点小组、视频、音频、文献、图片等等。如果您需
老板项目需要从类似日志的文本文件中提取出元数据,然后放到数据库中为数据挖掘做处理。设计数据库为两张表,初步估计第一张表是千万级的数据,第二张表是亿级数据。面对这么大数据量的导入需求,分析设计高效的程序就显得很有必要了,磨刀不误砍柴功嘛!
首先考虑的是提高IO效率,毕竟现在计算机cpu高主频,多核心的环境下硬盘IO才是瓶颈。在文件读取上提高程序效率,比如用
转载
2024-07-03 09:57:53
55阅读