0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何在PyTorch中使用交叉熵損失函數

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:深度學習自然語言 ? 2022-08-18 11:01 ? 次閱讀

1. 指定GPU編號

設置當前使用的GPU設備僅為0號設備,設備名稱為/gpu:0:

os.environ["CUDA_VISIBLE_DEVICES"] = "0"

設置當前使用的GPU設備為0, 1號兩個設備,名稱依次為/gpu:0、/gpu:1:
os.environ["CUDA_VISIBLE_DEVICES"] = "0,1",根據順序表示優(yōu)先使用0號設備,然后使用1號設備。

指定GPU的命令需要放在和神經網絡相關的一系列操作的前面。

2. 查看模型每層輸出詳情

Keras有一個簡潔的API來查看模型的每一層輸出尺寸,這在調試網絡時非常有用?,F(xiàn)在在PyTorch中也可以實現(xiàn)這個功能。

使用很簡單,如下用法:

from torchsummary import summarysummary(your_model, input_size=(channels, H, W))

input_size是根據你自己的網絡模型的輸入尺寸進行設置。

https://github.com/sksq96/pytorch-summary

3. 梯度裁剪(Gradient Clipping)

import torch.nn as nn
outputs = model(data)loss= loss_fn(outputs, target)optimizer.zero_grad()loss.backward()nn.utils.clip_grad_norm_(model.parameters(), max_norm=20, norm_type=2)optimizer.step()

nn.utils.clip_grad_norm_的參數

parameters– 一個基于變量的迭代器,會進行梯度歸一化

max_norm– 梯度的最大范數

norm_type– 規(guī)定范數的類型,默認為L2

提出:梯度裁剪在某些任務上會額外消耗大量的計算時間。

4. 擴展單張圖片維度

因為在訓練時的數據維度一般都是 (batch_size, c, h, w),而在測試時只輸入一張圖片,所以需要擴展維度,擴展維度有多個方法:

import cv2import torch
image = cv2.imread(img_path)image = torch.tensor(image)print(image.size())
img = image.view(1, *image.size())print(img.size())
# output:# torch.Size([h, w, c])# torch.Size([1, h, w, c])

import cv2import numpy as np
image = cv2.imread(img_path)print(image.shape)img = image[np.newaxis, :, :, :]print(img.shape)
# output:# (h, w, c)# (1, h, w, c)

import cv2import torch
image = cv2.imread(img_path)image = torch.tensor(image)print(image.size())
img = image.unsqueeze(dim=0)  print(img.size())
img = img.squeeze(dim=0)print(img.size())
# output:# torch.Size([(h, w, c)])# torch.Size([1, h, w, c])# torch.Size([h, w, c])

tensor.unsqueeze(dim):擴展維度,dim指定擴展哪個維度。

tensor.squeeze(dim):去除dim指定的且size為1的維度,維度大于1時,squeeze()不起作用,不指定dim時,去除所有size為1的維度。

5. 獨熱編碼

在PyTorch中使用交叉熵損失函數的時候會自動把label轉化成onehot,所以不用手動轉化,而使用MSE需要手動轉化成onehot編碼。

import torchclass_num = 8batch_size = 4
def one_hot(label):    """    將一維列表轉換為獨熱編碼    """    label = label.resize_(batch_size, 1)    m_zeros = torch.zeros(batch_size, class_num)    # 從 value 中取值,然后根據 dim 和 index 給相應位置賦值    onehot = m_zeros.scatter_(1, label, 1)  # (dim,index,value)
    return onehot.numpy()  # Tensor -> Numpy
label = torch.LongTensor(batch_size).random_() % class_num  # 對隨機數取余print(one_hot(label))
# output:[[0. 0. 0. 1. 0. 0. 0. 0.] [0. 0. 0. 0. 1. 0. 0. 0.] [0. 0. 1. 0. 0. 0. 0. 0.] [0. 1. 0. 0. 0. 0. 0. 0.]]

https://discuss.pytorch.org/t/convert-int-into-one-hot-format/507/3

6. 防止驗證模型時爆顯存

驗證模型時不需要求導,即不需要梯度計算,關閉autograd,可以提高速度,節(jié)約內存。如果不關閉可能會爆顯存。

with torch.no_grad():    # 使用model進行預測的代碼pass

感謝知乎用戶 @zhaz 的提醒,我把torch.cuda.empty_cache()的使用原因更新一下。

這是原回答:

Pytorch 訓練時無用的臨時變量可能會越來越多,導致 out of memory ,可以使用下面語句來清理這些不需要的變量。

官網上的解釋為:

Releases all unoccupied cached memory currently held by the caching allocator so that those can be used in other GPU application and visible innvidia-smi.torch.cuda.empty_cache()

意思就是PyTorch的緩存分配器會事先分配一些固定的顯存,即使實際上tensors并沒有使用完這些顯存,這些顯存也不能被其他應用使用。這個分配過程由第一次CUDA內存訪問觸發(fā)的。

而torch.cuda.empty_cache()的作用就是釋放緩存分配器當前持有的且未占用的緩存顯存,以便這些顯存可以被其他GPU應用程序中使用,并且通過nvidia-smi命令可見。注意使用此命令不會釋放tensors占用的顯存。

對于不用的數據變量,Pytorch 可以自動進行回收從而釋放相應的顯存。

更詳細的優(yōu)化可以查看:
優(yōu)化顯存使用:
https://blog.csdn.net/qq_28660035/article/details/80688427
顯存利用問題:
https://oldpan.me/archives/pytorch-gpu-memory-usage-track

7. 學習率衰減

import torch.optim as optimfrom torch.optim import lr_scheduler
# 訓練前的初始化optimizer = optim.Adam(net.parameters(), lr=0.001)scheduler = lr_scheduler.StepLR(optimizer, 10, 0.1)  # # 每過10個epoch,學習率乘以0.1
# 訓練過程中for n in n_epoch:    scheduler.step()    ...
8. 凍結某些層的參數

參考:Pytorch 凍結預訓練模型的某一層

https://www.zhihu.com/question/311095447/answer/589307812

在加載預訓練模型的時候,我們有時想凍結前面幾層,使其參數在訓練過程中不發(fā)生變化。

我們需要先知道每一層的名字,通過如下代碼打印:

net = Network()  # 獲取自定義網絡結構for name, value in net.named_parameters():    print('name: {0},	 grad: {1}'.format(name, value.requires_grad))

假設前幾層信息如下:

name: cnn.VGG_16.convolution1_1.weight,   grad: Truename: cnn.VGG_16.convolution1_1.bias,   grad: Truename: cnn.VGG_16.convolution1_2.weight,   grad: Truename: cnn.VGG_16.convolution1_2.bias,   grad: Truename: cnn.VGG_16.convolution2_1.weight,   grad: Truename: cnn.VGG_16.convolution2_1.bias,   grad: Truename: cnn.VGG_16.convolution2_2.weight,   grad: Truename: cnn.VGG_16.convolution2_2.bias,   grad: True

后面的True表示該層的參數可訓練,然后我們定義一個要凍結的層的列表:

no_grad = [    'cnn.VGG_16.convolution1_1.weight',    'cnn.VGG_16.convolution1_1.bias',    'cnn.VGG_16.convolution1_2.weight',    'cnn.VGG_16.convolution1_2.bias']

凍結方法如下:

net = Net.CTPN()  # 獲取網絡結構for name, value in net.named_parameters():    if name in no_grad:        value.requires_grad = False    else:        value.requires_grad = True

凍結后我們再打印每層的信息:

name: cnn.VGG_16.convolution1_1.weight,   grad: Falsename: cnn.VGG_16.convolution1_1.bias,   grad: Falsename: cnn.VGG_16.convolution1_2.weight,   grad: Falsename: cnn.VGG_16.convolution1_2.bias,   grad: Falsename: cnn.VGG_16.convolution2_1.weight,   grad: Truename: cnn.VGG_16.convolution2_1.bias,   grad: Truename: cnn.VGG_16.convolution2_2.weight,   grad: Truename: cnn.VGG_16.convolution2_2.bias,   grad: True

可以看到前兩層的weight和bias的requires_grad都為False,表示它們不可訓練。

最后在定義優(yōu)化器時,只對requires_grad為True的層的參數進行更新。

optimizer = optim.Adam(filter(lambda p: p.requires_grad, net.parameters()), lr=0.01)
9. 對不同層使用不同學習率

我們對模型的不同層使用不同的學習率。

還是使用這個模型作為例子:

net = Network()  # 獲取自定義網絡結構for name, value in net.named_parameters():    print('name: {}'.format(name))
# 輸出:# name: cnn.VGG_16.convolution1_1.weight# name: cnn.VGG_16.convolution1_1.bias# name: cnn.VGG_16.convolution1_2.weight# name: cnn.VGG_16.convolution1_2.bias# name: cnn.VGG_16.convolution2_1.weight# name: cnn.VGG_16.convolution2_1.bias# name: cnn.VGG_16.convolution2_2.weight# name: cnn.VGG_16.convolution2_2.bias

對 convolution1 和 convolution2 設置不同的學習率,首先將它們分開,即放到不同的列表里:

conv1_params = []conv2_params = []
for name, parms in net.named_parameters():    if "convolution1" in name:        conv1_params += [parms]    else:        conv2_params += [parms]
# 然后在優(yōu)化器中進行如下操作:optimizer = optim.Adam(    [        {"params": conv1_params, 'lr': 0.01},        {"params": conv2_params, 'lr': 0.001},    ],    weight_decay=1e-3,)

我們將模型劃分為兩部分,存放到一個列表里,每部分就對應上面的一個字典,在字典里設置不同的學習率。當這兩部分有相同的其他參數時,就將該參數放到列表外面作為全局參數,如上面的`weight_decay`。

也可以在列表外設置一個全局學習率,當各部分字典里設置了局部學習率時,就使用該學習率,否則就使用列表外的全局學習率。

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼
    +關注

    關注

    6

    文章

    957

    瀏覽量

    54911
  • 函數
    +關注

    關注

    3

    文章

    4345

    瀏覽量

    62865
  • pytorch
    +關注

    關注

    2

    文章

    808

    瀏覽量

    13322

原文標題:PyTorch 常用 Tricks 總結

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Pytorch模型訓練實用PDF教程【中文】

    PyTorch 提供的數據增強方法(22 個)、權值初始化方法(10 個)、損失函數(17 個)、優(yōu)化器(6 個)及 tensorboardX 的方法(13 個)進行了詳細介紹。本教程分為四章
    發(fā)表于 12-21 09:18

    什么是交叉?

    2018-04-22 開胃學習數學系列 - 交叉
    發(fā)表于 03-21 11:08

    交叉的作用原理

    交叉作為損失函數在神經網絡中的作用和幾種常用的交叉損失
    發(fā)表于 06-03 09:10

    何在PSoC設計器、Syxx中使用“StastFF()”函數?

    正如主題名所說,如何在PSoC設計器、Syxx中使用“StastFF()”函數!
    發(fā)表于 08-16 10:52

    TensorFlow損失函數(定義和使用)詳解

    的情況下,損失函數定義為交叉。輸出 Y 的維數等于訓練數據集中類別的數量,其中 P 為類別數量:如果想把 L1 正則化加到損失上,那么代碼
    發(fā)表于 07-28 14:38

    何在STM8單片機中使用printf函數功能?

    何在STM8單片機中使用printf函數功能?
    發(fā)表于 12-01 07:19

    神經網絡在訓練時常用的一些損失函數介紹

    習的特定預測建模問題(例如分類或回歸)有關。在本文中我們將介紹常用的一些損失函數,包括:回歸模型的均方誤差損失二元分類模型的交叉和hing
    發(fā)表于 10-20 17:14

    keras常用的損失函數Losses與評價函數Metrics介紹

    函數如下,它們有自己適用的應用場景,最常用的是均方誤差和交叉誤差: 編號可用損失函數alias說明1mean_squared_error(
    發(fā)表于 08-18 06:31

    機器學習和深度學習中分類與回歸常用的幾種損失函數

    Loss、分位數損失 Quantile Loss、交叉損失函數 Cross Entropy Loss、Hinge
    的頭像 發(fā)表于 10-09 16:36 ?6281次閱讀
    機器學習和深度學習中分類與回歸常用的幾種<b class='flag-5'>損失</b><b class='flag-5'>函數</b>

    基于交叉損失函欻的深度自編碼器診斷模型

    對小類別樣本的學習。尤其當故障樣本數極少時,此問題更突岀。針對這饣問題,提岀一種基于改進交叉損失函欻的深度自編碼器的診斷模型,首先提取振動數據的小波包能量,其次將小波包能量輸入到深度自編碼器中,最后通過SⅥa分類
    發(fā)表于 06-18 16:49 ?9次下載

    PyTorch中使用ReLU激活函數的例子

    PyTorch已為我們實現(xiàn)了大多數常用的非線性激活函數,我們可以像使用任何其他的層那樣使用它們。讓我們快速看一個在PyTorch中使用ReLU激活
    的頭像 發(fā)表于 07-06 15:27 ?2580次閱讀

    何在Vitis HLS GUI中使用庫函數?

    Vitis? HLS 2023.1 支持新的 L1 庫向導,本文將講解如何下載 L1 庫、查看所有可用功能以及如何在 Vitis HLS GUI 中使用庫函數。
    的頭像 發(fā)表于 08-16 10:26 ?1244次閱讀
    如<b class='flag-5'>何在</b>Vitis HLS GUI<b class='flag-5'>中使</b>用庫<b class='flag-5'>函數</b>?

    PyTorch中激活函數的全面概覽

    為了更清晰地學習Pytorch中的激活函數,并對比它們之間的不同,這里對最新版本的Pytorch中的激活函數進行了匯總,主要介紹激活函數的公
    的頭像 發(fā)表于 04-30 09:26 ?576次閱讀
    <b class='flag-5'>PyTorch</b>中激活<b class='flag-5'>函數</b>的全面概覽

    何在PyTorch中實現(xiàn)LeNet-5網絡

    等人提出,主要用于手寫數字識別任務(如MNIST數據集)。下面,我將詳細闡述如何在PyTorch中從頭開始實現(xiàn)LeNet-5網絡,包括網絡架構設計、參數初始化、前向傳播、損失函數選擇、
    的頭像 發(fā)表于 07-11 10:58 ?852次閱讀

    RNN的損失函數與優(yōu)化算法解析

    函數有以下幾種: 交叉損失函數交叉(Cros
    的頭像 發(fā)表于 11-15 10:16 ?562次閱讀