做一个专门面向年轻NLPer的每周在线论文分享平台目录[x] 大模型(LLMs)基础面[x] 1. 目前 主流的开源模型体系 有哪些?[x] 2. prefix LM 和 causal LM 区别是什么?[x] 3. 涌现能力是啥原因?[x] 4. 大模型LLM的架构介绍?[x] 大模型(LLMs)进阶面[x] 1. llama 输入句子长度理论上可以无限长吗?[x] 1. 什
转载 10月前
12阅读
不小心就会出的错
参数没有设置梯度更新导致报错:Exception has occurred: RuntimeError (note: full exception trace is shown but execution is paused at: _run_module_as_main)element 0 of tensors does not require grad and does not have a grad_fn
原创 2021-07-11 17:46:30
4469阅读
参数没有设置梯度更新导致报错:Exception has occurred: RuntimeError (note: full exception trace is shown but
原创 2022-01-25 15:31:14
7063阅读
ntimeError: element 0 of tensors does not require grad and does not have a grad_
原创 2022-07-18 21:26:08
1322阅读
梯度计算:Tensor是这个包的核心类,如果将其属性.requires_grad设置为True,它将开始追踪(track)在其上的所有操作(这样就可以利用链式法则进行梯度传播了)。完成计算后,可以调用.backward()来完成所有梯度计算。此Tensor的梯度将累积到.grad属性中。生成器生成数据:# def data_iter(batch_size, features, label
# PyTorch 中去掉 Tensor 的 `grad_fn` 在深度学习中,反向传播是一个核心概念,而 PyTorch 通过 `Tensor` 的 `grad_fn` 属性为我们提供了一个非常有用的跟踪机制,用于记录引发其创建的操作。然而,某些情况下我们需要去掉 `grad_fn`,即使不再跟踪梯度。这篇文章将介绍如何实现这一点,并给出代码示例。 ## 1. 什么是 `grad_fn`?
原创 11月前
179阅读
# PyTorch中的grad_fn及标量生成项目方案 ## 项目背景 在深度学习中,反向传播算法的实现依赖于计算图的构建。PyTorch是一个灵活且高效的深度学习框架,在这个框架中,张量的每个操作都会返回一个新张量,而新张量会包含一个`grad_fn`属性,用以指示其生成的操作。理解和使用这些属性对于有效进行模型构建和调试非常重要。 ## 项目目标 本项目旨在深入探讨如何在PyTorch
参考资料ShusenTang/Dive-into-DL-PyTorch: 本项目将《动手学深度学习》(Dive into Deep Learning)原书中的MXNet实现改为PyTorch实现。 (github.com).requires_gradTensor是这个包的核心类,如果将其属性.requires_grad设置为True,它将开始追踪(track)在其上的所有操作(这样就可以利用链式法
转载 2023-09-04 09:47:50
210阅读
# PyTorch Tensor中的grad_fn属性详解 随着深度学习的普及,PyTorch作为一种灵活且易用的深度学习框架,受到越来越多开发者的喜爱。PyTorch中的张量(tensor)是所有操作的核心,而`grad_fn`属性则是理解计算图的关键。本文将为您详细介绍`grad_fn`的意义,并通过代码示例和流程图进行解释。 ## 什么是grad_fn? 在PyTorch中,`grad
原创 10月前
657阅读
# 在PyTorch中替换网络权重并保留grad_fn的实例 在深度学习中,我们通常需要调整和优化模型的权重,以达到更好的性能。PyTorch提供了灵活的方式来处理这些权重,但在替换它们的同时保留梯度计算图这一点可能让初学者感到困惑。本文将逐步指导你如何达到这一目的。 ## 流程概述 在进行权重替换之前,我们需要了解整个流程。下面是一张简化的步骤表格,说明了替换网络权重的流程: | 步骤
原创 9月前
88阅读
从这里学习《DL-with-PyTorch-Chinese》 4.2用PyTorch自动求导考虑到上一篇手动为由线性和非线性函数组成的复杂函数的导数编写解析表达式并不是一件很有趣的事情,也不是一件很容易的事情。这里我们用通过一个名为autograd的PyTorch模块来解决。利用autograd的PyTorch模块来替换手动求导做梯度下降首先模型和损失函数还是不变:def model(t_u, w
1. nn.Module.cuda() 和 Tensor.cuda() 的作用效果差异无论是对于模型还是数据,cuda()函数都能实现从CPU到GPU的内存迁移,但是他们的作用效果有所不同。对于nn.Module:model = model.cuda() model.cuda()上面两句能够达到一样的效果,即对model自身进行的内存迁移。对于Tensor:和nn.Module不同,调用tenso
目录普遍的解决办法异常解析SpringCloud服务消费搭建服务端消费端注册中心开启多个可能遇到报错普遍的解决办法Load balancer does not have available server for client首先,这个错误网上搜了很多文章,提供办法最多的是在配置文件里加入一下代码ribbon: eureka: enabled: false以及## 这个BaseRemot
转载 2024-04-01 09:50:52
1063阅读
问题最近学习pytorch, 原来用kreas重现的模型改为用pytorch实现训练,因为这样给模型的操作更加细致, 对模型的掌控更好。当我写好一个模型 出现了这个问题使用pytorchviz进行模型可视化出现r如下错误raceback (most recent call last): File "/home/jiwu/Documents/AttRCNN-CNNs/pyt_train....
原创 2021-08-27 14:41:33
431阅读
前言:神经网络的训练有时候可能希望保持一部分的网络参数不变,只对其中一部分的参数进行调整。或者训练部分分支网络,并不让其梯度对主网络的梯度造成影响.这时候我们就需要使用detach()函数来切断一些分支的反向传播.1. tensor.detach()返回一个新的tensor,从当前计算图中分离下来。但是仍指向原变量的存放位置,不同之处只是requirse_grad为false.得到的这个tensi
转载 2024-01-11 13:29:16
97阅读
https://wiki.apache.org/hadoop/FAQ#Does_Hadoop_require_SSH.3F Hadoop provided scripts (e.g., start-mapred.sh and start-dfs.sh) use ssh in order to sta
转载 2017-11-24 22:50:00
91阅读
2评论
Caused by: java.lang.Illegal
原创 2023-03-16 09:07:14
506阅读
## 如何在Hive中实现没有事务 作为一名经验丰富的开发者,我将帮助你解决如何在Hive中实现没有事务的问题。首先,让我们了解一下整个流程。 ### 流程图 ```mermaid pie title Hive事务流程 "开始" : 开始 "Hive查询" : 50 "提交" : 30 "回滚" : 20 ``` ### 步骤 | 步骤 | 描述
原创 2024-06-18 06:00:34
137阅读
Exported activity does not require permission
原创 2014-11-20 19:58:00
919阅读
  • 1
  • 2
  • 3
  • 4
  • 5