系列文章目录 文章目录系列文章目录前言Anaconda简介python是什么问啥要用anaconda二、anaconda下载安装配置基础环境Pycharm安装Pycharm使用conda环境安装TensorFlow-gpu 前言由于种种原因,好久没更博客了,感觉现在访问量下了一个等级?。最近电脑突然连不上网了,尝试里好多方法,都不行,最后直接尝试了最有效、最万能到方法——重装系统。当然之前的深度学            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-30 15:09:57
                            
                                67阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            0. 前言最近偶尔捣鼓了一下onnxruntime-gpu(python版本)的服务端部署,于是打算简单记录一下一些关键步骤,免得以后忘了。确实,有些时候我们并不全是需要把模型转成MNN/ncnn/TNN后走移动端部署那套,服务端的部署也是个很重要的场景。比较常用的服务端部署方案包括tensorrt、onnxruntime-gpu等等。onnxruntime-gpu版本可以说是一个非常简单易用的框            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-12 22:16:39
                            
                                431阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Analysis of Large-Scale Multi-Tenant GPU Clusters for DNN Training Workloads作者提出分布式机器学习系统中出现的三个问题:作业调度GPU利用率训练中会产生的错误作业调度由于分布式机器学习中要求资源限制而使用gang调度算法,因此会产生资源碎片导致利用率不高。由于需要同步参数因此分布式作业locality非常重要,但也由于lo            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-05 17:52:13
                            
                                46阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            关于pytorch多GPU分布式训练数据并行:把数据分成不同份数放在不同的GPU上面去跑: 单机单卡:torch.cuda.is_avliable()     模型拷贝:model.cuda --->原地操作不用赋值,data = data.cuda()     torch.save 模型、优化器、其他变量#单机多卡:torch.n            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-18 13:01:08
                            
                                352阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            仅仅是个人学习的过程,发现有问题欢迎留言 一、celery 介绍celery是一种功能完备的即插即用的任务对列celery适用异步处理问题,比如上传邮件、上传文件、图像处理等比较耗时的事情异步执行,这样用户不需要等待很长的时间,提高用户的体验celery是由python语言编写的,但是可以使用于许多语言,比如js、PHP等二、celery的特点:简单,易于使用和维护,有丰富的文档高效,单            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-08 14:49:24
                            
                                103阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            关于几个坑1,ray-ml 的images 里的cuda 版本 和pytorch 版本 还有node 节点的驱动必须对应,否则在跑训练的时候,显卡驱动会提示,cuda 版本不匹配,导致无法启动,但是tesla 版本的显卡就不会有这样的问题,比如a6000和a100 但是我在3090上遇到了这个问题,具体原因,查看大牛文档,链接:https://zhuanlan.zhihu.com/p/361545            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-04-27 17:36:50
                            
                                1663阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            集中式(centralization): 是指由一台主计算机组成中心节点,数据集中存储在这个中心节点中,并且整个系统的所有业务单元都集中部署在这个中心节点上,系统所有功能均有其集中处理。 集中式系统最大特点就是部署结构简单,集中式系统往往基于底层性能卓越的大型主机,因此无需考虑如何对服务进行多个节点的部署,也就不用考虑多个节点之间的分布式协作问题。集群(cluster): 是指在多台不同的服务器中            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-22 08:33:07
                            
                                165阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            一句话:分布式是并联工作的,集群是串联工作的。分布式:一个业务分拆多个子业务,部署在不同的服务器上 集群:同一个业务,部署在多个服务器上集群是个物理形态,分布式是个工作方式。 只要是一堆机器,就可以叫集群,他们是不是一起协作着干活,这个谁也不知道;一个程序或系统,只要运行在不同的机器上,就可以叫分布式,嗯,C/S架构也可以叫分布式。 集群一般是物理集中、统一管理的,而分布式系统则不强调这一点。 所            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-07 19:43:03
                            
                                138阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            如果关注这个领域的同学可能知道,Ray其实在去年就已经在开源社区正式发布了,只不过后来就一直没有什么太大动静,前段时间也是因为机缘巧合,我又回头学习了解了一下,顺便总结如下:Ray是什么?Ray 是RISELab实验室(前身也就是开发Spark/Mesos等的AMPLab实验室)针对机器学习领域开发的一种新的分布式计算框架。按照官方的定义:“Ray is a flexible, high-perf            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-18 12:08:09
                            
                                220阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一个节点(node) 就是一个Elasticsearch 实例,而一个集群(cluaster) 由一个或多个节点组成,它们具有相同的cluster.name,它们协调工作,分享数据和负载。当加入新的节点或者删除一个节点时,集群就会感知并平衡数据。添加索引:为了将数据添加到Elasticsearc...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2016-08-02 16:49:00
                            
                                242阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            分布式系统是一种将计算、存储、处理等资源分布在多台计算机节点上进行协同工作的系统架构。而在分布式系统中,集群是由多个节点组成的一个整体,用于共同完成某项任务或提供某项服务。在实际开发中,我们经常会用到Kubernetes(K8S)来管理分布式集群。
以下是实现分布式集群的一般流程:
| 步骤         | 操作                |
|--------------|-----            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-05-16 10:20:57
                            
                                76阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            scrapy_redisScrapy_redis在scrapy的基础上实现了更多,更强大的功能,具体体现在:reqeust去重,爬虫持久化,和轻松实现分布式安装pip3 install scrapy-redis3.要使用分布式 Scrapy_Redis Settings.py设置文件中需要做一下配置 这里表示启用scrapy-redis里的去重组件,不实用scrapy默认的去重DUPEFILTER            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-04 23:44:35
                            
                                118阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一个节点(node) 就是一个Elasticsearch 实例,而一个集群(cluaster) 由一个或多个节点组成,它们具有相同的cluster.name,它们协调工作,分享数据和负载。当加入新的节点或者删除一...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2016-08-02 16:49:00
                            
                                427阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            分布式: 在不同的服务器上部署不同的服务 集群 在不同的服务器上部署相同的服务            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2017-09-08 17:34:00
                            
                                182阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            高可用集群:high availabity cluster负载均衡集群:Load Balance Cluster科学计算集群:high performance computing c            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-01-11 18:52:02
                            
                                133阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            分布式环境下,由于高并发的问题,通常我们需要部署多台服务器来负载均衡,从而避免,单点访问的热点问题,或者因负载过高而造成服务器瘫痪的问题等等。 solr4.x之后推出了solrcloud的分布式集群方案,与4.x之前的Master/Slave集群模式,架构上发生了重大变化,solrcloud不仅仅解决了,高并发的负载均衡问题,也解决了海量数据的检索性能问题,对一份巨大的索引,采用分而治之的方法索引            
                
         
            
            
            
            需求公司项目采用微服务的架构,服务很多,每个服务都有自己的日志,分别存放在不同的服务器上。当查找日志时需要分别登录不同的服务器,有大量的请求的情况下,在日志文件中查找信息十分困难。想要搭建一个日志系统,ELK分布式日志系统对于中小型公司来说开发维护成本太高,经过调研,选择Loki轻量级日志系统。Loki简介Loki 是一个水平可扩展,高可用性,多租户日志聚合系统,灵感来自 Prometheus ,            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-30 10:53:04
                            
                                82阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            分布式集群是现代软件开发中常见的一种架构模式,它可以将大规模的任务分解为多个子任务,并将这些子任务分配给多台机器并行执行。Python作为一种流行的编程语言,也提供了丰富的工具和库来支持分布式集群的开发。在本文中,我们将介绍Python中常用的分布式集群相关的依赖库和示例代码。
## 1. 分布式集群的基本概念
分布式集群是指将一个任务分解为多个子任务,并将这些子任务分配给多台机器并行执行的架            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-12-29 10:15:38
                            
                                32阅读
                            
                                                                             
                 
                
                             
         
            
            
            
             01. 硬件准备一个完整的深度学习GPU开发环境需要硬件和软件两方面的支持,在硬件部分,我将从GPU、CPU、散热、主板、电源、内存、硬盘和显示器几方面分别介绍。GPU深度学习需要进行大量矩阵运算,如果不考虑云端服务提供的GPU或TPU资源,一块足够好的GPU就是普通人的性价比之选。目前最常用的是NVIDIA显卡,主要关注的GPU性能参数是显存和CUDA计算能力。显存关系到你能训练多大            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-09-02 12:58:26
                            
                                158阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            泰勒公式            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-08-19 13:01:08
                            
                                254阅读