在统计分析应用中,从明细数据计算出来的各种指标是支撑业务的重要数据。但是,要做到快速而且灵活的多指标计算,后台数据源面临多个难题。多指标计算的一个难题是涉及的明细数据量非常大。政府、金融、能源和工业等各个行业,都在不断产生大量的明细数据。要在几千万甚至上亿的明细数据基础上计算多种指标,还要达到秒级响应的速度,对于传统数据库和大数据技术来说都是一个不小的挑战。另一个难题是需要同时计算的指标数量非常多
使用分布式集群来处理大数据是当前的主流,将一个大任务拆分成多个子任务分布到多个节点进行处理通常能获得显著的性能提升。因此,只要发现处理能力不足就可以通过增加节点的方式进行扩容,这也是很多拥趸者最朴素的想法。以至于当我们接触一项新的大数据处理技术往往首先问的就是支不支持分布式以及能支持多大规模的集群,可见“分布式思维”已经根深蒂固。那么分布式真是处理大数据的万能药吗?“万能”当然不可能。没有包治百病
使用Python的FalskWeb框架快速开发一个网站项目1.Falsk框架基本概念Falsk框架是Python中轻量的Web框架,可以帮助我们快速开发一个网站项目。使用Falsk框架前首先需要使用pip命令去安装。pyPSG:\Python全栈运维开发\PythonWeb开发之Flask框架\代码文件pip3installflask2.使用Falsk框架编写第一个页面定义一个访问页面/backe
@TOCSPL和SQL能不能融合在一起?SQL和SPL都是面向结构化数据的通用处理技术。SQL普及率高受众广,很多用户天生就会用SQL查询数据,如果数据引擎支持SQL就会很容易上手,而且历史程序也相对容易迁移;SPL则具备简洁高效的特点,提供了更加敏捷的语法可以简化复杂计算,同时支持过程计算天然支持分步编码,计算体系更加开放可以同时针对多种数据源混合计算,利用内置的高性能存储和高性能算法容易获得更
我们之前做过一些性能优化的案例,不算很多,还没有失手过。少则提速数倍,多则数十倍,极端情况还有提速上千倍的。提速一个数量级基本上是常态。下面是一些案例材料:开源SPL提速保险公司团保明细单查询2000+倍(://c.raqsoft.com.cn/article/1593677551526)开源SPL提升银行自助分析从5并发到100并发(://c.raqsoft.com.cn/art
@TOC英文的不适用开源现在很流行,从系统级到应用层面,都有各类开源软件供开发者使用,比如LinuxAndroidMysqlPostgreSQLHadoopApacheTamcatBirt等,在国内都很流行然而,BI似乎是个例外,在国内还很难找到一个使用比较广泛的的开源产品其实国外的开源BI也很多,比如SupersetGrafanaMetabaseRedash,这些都是在GitHub上排名靠前的开
@TOC我们工作中写SQL处理数据是家常便饭,不管是应用内数据处理还是临时查询分析都可以用SQL完成,相对其他技术(如Java等高级语言)也更简单。不过,SQL的简单只限于简单需求,有些复杂计算场景SQL写起来却很难,嵌套N层以至于达到几百上千行,说SQL代码长度时通常不会以行计而是以KB计。这种情况并不少见,相信经常写SQL的小伙伴并不陌生。为什么会出现这种情况呢?在http://c.raqso
@TOC很多数据仓库产品都采用了列式存储。如果数据表的总列数很多而计算涉及的列很少,采用列存就只读取需要的列即可,能够减少硬盘访问量,提高性能。特别是数据量非常大时,硬盘扫描和读取的时间占比很大,这时候列存的优势会很明显。那么,是不是只要用了列存就一定能做到性能最佳呢?我们来看看,列式存储在哪些方面还可以做的更高效。1、压缩方面结构化数据的编码方式一般都不会非常紧凑,常常还有一定的可压缩余地。数据
蓝鲸自动化运维平台批量创建任务并设置定时可以在作业平台进行配置1.新建作业1.1.进入作业平台!在这里插入图片描述(https://s2.51cto.com/images/blog/202208/17094548_62fc484c3950c39661.png?xossprocess=image/watermark,size_14,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF
Iptables防火墙自定义链@TOC1.为什么要自定义链为什么需要自定义链呢?默认的四表五链不满足基本使用吗?其实并不是,四表五链完全满足使用,但是当我们同一类程序有很多个防火墙规则时,例如都写在INPUT链中,那么当我们要对其中的一条规则进行调整了,就会发现上下有关联性,修改起来不是那么容器,因为这个INPUT链中还有其他的服务规则。基于这种情况,我们就可以去自定义一张新的链,在这个链中,只定
1.es安装中文分词器官网:https://github.com/medcl/elasticsearchanalysisik1.1.安装中文分词器安装中文分词器的要求:1.分词器的版本要与es的版本一直2.所有es节点都需要安装中文分词器3.安装完分词器需要重启sh1.在线安装root@elasticsearch/softcd/usr/share/elasticsearch/bin/root
1.kibana分析系统简介Kibana是一个开源的分析与可视化平台,设计出来用于和Elasticsearch一起使用的。你可以用kibana搜索、查看存放在Elasticsearch中的数据。Kibana与Elasticsearch的交互方式是各种不同的图表、表格、地图等,直观的展示数据,从而达到高级的数据分析与可视化的目的。Elasticsearch、Logstash和Kibana这三个技术就
elasticsearch集群运维及故障排查1.elasticsearch集群分片有的地方空缺问题描述:集群增加到3个节点后,为什么testinfo、linuxbook、index1等索引都出现了很多空缺?!在这里插入图片描述(https://s2.51cto.com/images/blog/202208/12115220_62f5ce74c00be22038.png?xossprocess=im
Elasticsearch分布式大数据搜索集群@TOC1.elasticsearch集群介绍elasticsearch可以横向扩展至数百(甚至数千)的服务器节点,同时可以处理PB级别数据elasticsearch天生就是分布式的,并且在设计时屏蔽了分布式的复杂性elasticsearch经肯屏蔽了风不是系统的复杂性elasticsearch集群的特点:分配文档到不同的容器或分配中,文档可以存储一个
filebeat使用modules收集nginx日志1.为什么要使用modules收集日志modules只是filebeat的一个小功能,由于像mysql、redis等这种日志无发输出成json格式,filebeat无法将收集来的普通日志转换为json格式,从而进行细致的统计logstash可以做到将普通日志转换成json格式,但是配置十分复杂,且容易出错介于种种不便,elk官方推出了filebe
Iptables防火墙常见的典型应用场景1、场景一需求如下:公司员工可以在192.168.20.0/24、192.168.30.0/24网段访问服务器上的任何服务。当员工出差时,通过VPN也可以连接到公司所有的服务器,操作所有的服务。公司的门户网站服务器,只允许公网用户访问80和443协议端口。非已建立连接的数据包禁止通过。防火墙配置规则如下:shroot@jxl1iptablestfilterI
Iptables防火墙iprange模块扩展匹配规则iprange模块可以同时设置多个IP或者设置IP的某一段连续的范围,通过iprang
elasticsearch交互方式1.elasticsearch交互方式curl命令:最繁琐最复杂最容易出错不需要安装任何软件,值需要有curl命令eshead插件查看数据方便操作相对容易需要node环境kibana查看数据以及报表格式丰富操作很简单需要java环境和安装配置kibana1.1.查看es基本信息shroot@elasticcurl192.168.81.210:9
1.elasticsearch的部署1.1.elasticsearch的安装访问安装方式优点缺点docker1.部署方便<br2.直接run就可以使用<br3.启动迅速1.需要有docker知识<br2.修改配置复杂<br3.数据存储需要挂载目录tar1.部署灵活<br2.对系统侵占性小1需要自己写启动管理文件<br2.目录需要提前规划好rpm1.部署方便<br2.启动脚本安装即用<br3.存放目
MongoDB数据库增删改查基本使用@TOC1.CRUD介绍CRUD操作是create(创建)、read(读取)、update(更新)和delete(删除)MongoDB不支持常规的SQL的命令,但是自身有丰富的查询语言MongoDB在插入一条数据后,会自动增加一个_id自动,作为主键,如果插入的文档省略了id字段,则会自动生产一个Object_id字段MongoDB默认有4个数据库:test:
zabbix自定义图形1.如何查zabbix图形监测图形找到要看图形的主机选择查看的图形应用!在这里插入图片描述(https://s2.51cto.com/images/blog/202208/04132516_62eb583c5285f31924.png?xossprocess=image/watermark,size_14,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,
如何选择一块真正“好用的、性能高”的远程控制软件@TOC无论是开发人员、运维人员、测试人员,还是非从事互联网工作的其他人员,在工作中肯定会存在需要远程控制其他电脑的需求。比如下面几个经常会遇到的场景:例如今天开会使用的报表是昨日在家中加班完成的,但是忘记拷贝到U盘,马上就要开会了,文件却不在手里,从而影响工作。当平台出现了故障,而运维却不在工位,也不在家中,手里没有电脑办公。开发人员在公司、家写了
1.配置ansible主机清单清单文件位于/etc/ansible/hostsshroot@ansiblevim/etc/ansible/hostsweb_clust//定义清单名192.168.81.220//主机ip192.168.81.230192.168.81.2402.验证ansible是否可用shroot@ansibleansibleweb_clustmping192.168.81.2
Ansible自动化管理(1)1.ansbile基本概述自动化运维工具:shell脚本/Ansible(无客户端)/Saltstack(有客户端masterminio)服务器部署流程买云主机环境部署软件部署配置部署启动服务测试加入集群1.1.ansible能做什么ansible可以帮助我们完成一些批量任务,或者完成一些需要经常重复的工作1.同时在100台服务器上安装nginx,并在安装后启动服务2
ansible指定其他主机清单配置文件默认情况下主机清单保存在系统的/etc/ansible/hosts文件中当主机分组不同时可以指定其他的主机清单文件,避免配置文件很臃肿你也可以通过命令行选项指定其它的清单文件i<path。1.创建主机清单文件shroot@zabbixserver1029ansiblevimcentosc75192.168.7.75192.168.7.722.指定刚刚创建的主机
Nginx基本概述1.HTTP协议回顾1.1.用户访问页面的过程DNS解析过程、HTTP工作原理1.用户打开浏览器输入URL地址2.通过DNS解析url地址找到对应的ip地址3.通过ip地址向对应的web服务器发送tcp连接请求1.首先是网络设备去转发数据2.网站所在平台的私网防火墙(也就是哪个公司写的程序,就会转交给对应公司的防火墙),进行访问控制3.dns解析的ip地址就是负载均衡调度器的地址
Nginx基础模块官方帮助文档!在这里插入图片描述(https://s4.51cto.com/images/blog/202205/09152344_6278c1805db7789868.png?xossprocess=image/watermark,size_14,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_20,
Nginx负载均衡1.Nginx负载均衡概述web服务器,直接面向用户,往往要承载大量并发请求,单台服务器难以负荷,我使用多台web服务器组成集群,前端使用Nginx负载均衡,将请求分散的转发到我们后端服务器集群中,实现负载的分发,那么会大大提升系统的吞吐率、请求性能、高容灾!在这里插入图片描述(https://s4.51cto.com/images/blog/202205/09152103_62
1.Nginx四层负载均衡原理!在这里插入图片描述(https://s4.51cto.com/images/blog/202205/09152028_6278c0bc7232f47417.png?xossprocess=image/watermark,size_14,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_20,
Copyright © 2005-2023 51CTO.COM 版权所有 京ICP证060544号