文章目录查看`GPU`数量设置`GPU`加速限制使用的`GPU`,不限制消耗显存的大小动态显存申请,仅在需要时申请显存空间限制使用的`GPU`,并且限制使用的显存大小单`GPU`模拟多`GPU`环境 Tensorflow GPU训练配置 以下教程建立在已经安装好Tensorflow2深度学习环境基础上,进一步管理GPU资源消耗。查看GPU数量import tensorflow as tf
# 查            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-22 23:37:07
                            
                                79阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            关于pytorch多GPU分布式训练数据并行:把数据分成不同份数放在不同的GPU上面去跑: 单机单卡:torch.cuda.is_avliable()     模型拷贝:model.cuda --->原地操作不用赋值,data = data.cuda()     torch.save 模型、优化器、其他变量#单机多卡:torch.n            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-18 13:01:08
                            
                                352阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            如果关注这个领域的同学可能知道,Ray其实在去年就已经在开源社区正式发布了,只不过后来就一直没有什么太大动静,前段时间也是因为机缘巧合,我又回头学习了解了一下,顺便总结如下:Ray是什么?Ray 是RISELab实验室(前身也就是开发Spark/Mesos等的AMPLab实验室)针对机器学习领域开发的一种新的分布式计算框架。按照官方的定义:“Ray is a flexible, high-perf            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-18 12:08:09
                            
                                220阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            每次 TensorFlow 运算都被描述成计算图的形式,允许结构和运算操作配置所具备的自由度能够被分配到各个分布式节点上。计算图可以分成多个子图,分配给服务器集群中的不同节点。 强烈推荐读者阅读论文“Large Scale Distributed Deep Networks”,本文的一个重要成果是证            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-02-14 06:28:00
                            
                                224阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            上海站 | 高性能计算之GPU CUDA培训      
          正文共6912个字,4张图,预计阅读时间18分钟。Wide & Deep 模型是谷歌在 2016 年发表的论文中所提到的模型。在论文中,谷歌将 LR 模型与 深度神经网络 结合在一起作为 Google Play  的推荐获得了一定的效果。在这篇论文后,Youtube,美团等公司也进行了相应的尝试并公开了            
                
         
            
            
            
            图模拟是一类宽松的图匹配模型。区别于子图同构要求匹配结果和匹配图具有相同的拓扑结构的规则,图模拟只对匹配节点的自身和一跳邻居有要求。得益于图模拟宽松的匹配规则,它具有较低的复杂度和更好的拓展性。这些优点引起了图算法界的注意,近些年,一些基于图模拟的研究工作陆续发表。为了进一步提高数据集的大小和算法的吞吐量,以及考虑到一些实际场景(数据分布在不同的机器上),分布式图模拟的研究是必要的。本文介绍了三篇            
                
         
            
            
            
            直接贴代码,第三章,原来教程在这里:,手动感谢永永夜大大对了,大大的是GPU条件下的,我的是虚拟机上的CPU版本。import numpy as np
import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets('MNIST_            
                
         
            
            
            
            好长时间没发文了,最近着实是有点忙,当爹的第 43 天,身心疲惫。这又赶上年底,公司冲 KPI 强制技术部加班到十点,晚上孩子隔两三个小时一醒,基本没睡囫囵觉的机会,天天处于迷糊的状态,孩子还时不时起一些奇奇怪怪的疹子,总让人担惊受怕的。本就不多的写文章时间又被无限分割,哎~ 打工人真是太难了。本来不知道写点啥,正好手头有个新项目试着用阿里的 Seata 中间件做分布式事务,那就做一个实践分享吧!            
                
         
            
            
            
            需求公司项目采用微服务的架构,服务很多,每个服务都有自己的日志,分别存放在不同的服务器上。当查找日志时需要分别登录不同的服务器,有大量的请求的情况下,在日志文件中查找信息十分困难。想要搭建一个日志系统,ELK分布式日志系统对于中小型公司来说开发维护成本太高,经过调研,选择Loki轻量级日志系统。Loki简介Loki 是一个水平可扩展,高可用性,多租户日志聚合系统,灵感来自 Prometheus ,            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-30 10:53:04
                            
                                82阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            泰勒公式            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-08-19 13:01:08
                            
                                254阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            分布式计算是一种计算方法,和集中式计算是相对的。随着计算技术的发展,有些应用需要非常巨大的计算能力才能完成,如果采用集中式计算,需要耗费相当长的时间来完成。分布式计算将该应用分解成许多小的部分,分配给多台计算机进行处理。这样可以节约整体计算时间,大大提高计算效率。定义广义定义所谓分布式计算是一门计算机科学,它研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给许            
                
         
            
            
            
             01. 硬件准备一个完整的深度学习GPU开发环境需要硬件和软件两方面的支持,在硬件部分,我将从GPU、CPU、散热、主板、电源、内存、硬盘和显示器几方面分别介绍。GPU深度学习需要进行大量矩阵运算,如果不考虑云端服务提供的GPU或TPU资源,一块足够好的GPU就是普通人的性价比之选。目前最常用的是NVIDIA显卡,主要关注的GPU性能参数是显存和CUDA计算能力。显存关系到你能训练多大            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-09-02 12:58:26
                            
                                158阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Tensorflow教程笔记基础TensorFlow 基础TensorFlow 模型建立与训练基础示例:多层感知机(MLP)卷积神经网络(CNN)循环神经网络(RNN)深度强化学习(DRL)Keras Pipeline自定义层、损失函数和评估指标常用模块 tf.train.Checkpoint :变量的保存与恢复常用模块 TensorBoard:训练过程可视化常用模块 tf.data :数据集的构建与预处理常用模块 TFRecord :TensorFlow 数据集存储格式常用            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-07-09 14:24:07
                            
                                558阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1:前言 提起TensorFlow的模型,大家最熟知的莫过于checkpoint文件了,但是其实TensorFlow 1.0 以及2.0 提供了多种不同的模型导出格式,除了checkpoint文件,TensorFlow2.0官方推荐SavedModel格式,使用tf.serving部署模型的时候采用的就是它,此外还有Keras model(HDF5)、Frozen GraphDef,以及用于移动端            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-30 13:13:03
                            
                                68阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            数据集:minist  (我走的是本地读取)数据集链接:https://pan.baidu.com/s/1o2faz60YLaba3q7hn_JWqg       提取码:yv3y 代码和数据集放在一个文件下目的:测试服务器是否安装成功cuda和cudnn环境:ubuntu16.04,python3.6,tensorflow-gpu1.10,cuda9.0,cudnn7.4...            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-11-16 15:17:29
                            
                                179阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            该文档讲述了如何创建一个集群的tensorflow服务器,以及如何分配在集群中计算图。我们假设你熟悉写作tensorflow程序的基本概念。Hello distributed TensorFlow!演示一个简单的TensorFlow集群,执行以下命令:# Start a TensorFlow server as a single-process "cluster".
$ python
>&g            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-28 00:51:44
                            
                                140阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1) Java环境的安装与配置  2) 安装Hadoop 从hadoop官网下载hadoop-0.20.2.tar.gz ,解压 tar zxvf hadoop-0.20.0.tar.gz 在hadoop-env.sh 中添加 export JAVA_HOME=/home/heyutao/tools/jdk1.6.0_20
 export HADOOP_HOME=/home/heyutao/too            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-09-27 06:20:58
                            
                                36阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            什么是分布式计算?分布式计算:是一种计算方法,是将该应用分解成许多小的部分,分配给多台计算机进行处理。这样可以节约整体计算时间,大大提高计算效率。 很简单的一句话:众人拾柴火焰高理解MapReduce思想MapReduce的思想核心是“分而治之,先分后合”。即将一个大的、复杂的工作或任务,拆分成多个小的任务,并行处理,最终进行合并。适用于大量复杂的、时效性不高的任务处理场景(大规模离线数据处理场景            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-10-30 23:32:34
                            
                                22阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            分布式计算的读书笔记 
2. 统一对象 
在分布式面向对象的计算领域,有一种愿景,希望从程序员的角度来看,在同一地址空间中的对象和在不同机器上的对象之间没有本质区别。这样程序员在设计和实现的时候就可以不用考虑对象是本地还是远程的,以统一的方式来对待本地和远程对象,由底层机制来处理远程对象调用。 
这种愿景是远程过程调用(RPC)目标的扩展。这种愿景意味着系统是“objects all 
the            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-28 10:03:36
                            
                                69阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            0. 前言最近偶尔捣鼓了一下onnxruntime-gpu(python版本)的服务端部署,于是打算简单记录一下一些关键步骤,免得以后忘了。确实,有些时候我们并不全是需要把模型转成MNN/ncnn/TNN后走移动端部署那套,服务端的部署也是个很重要的场景。比较常用的服务端部署方案包括tensorrt、onnxruntime-gpu等等。onnxruntime-gpu版本可以说是一个非常简单易用的框            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-12 22:16:39
                            
                                431阅读
                            
                                                                             
                 
                
                                
                    