1梯度非常大,以此修正網(wǎng)絡(luò)會(huì)不斷震蕩,無(wú)法形成一個(gè)收斂網(wǎng)絡(luò)。因而DNN的訓(xùn)練中可以形成很多tricks。。" />
0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

詳解DNN訓(xùn)練中出現(xiàn)的問(wèn)題與解決方法方法

lviY_AI_shequ ? 2017-12-25 14:34 ? 次閱讀

由于深度神經(jīng)網(wǎng)絡(luò)(DNN)層數(shù)很多,每次訓(xùn)練都是逐層由后至前傳遞。傳遞項(xiàng)<1,梯度可能變得非常小趨于0,以此來(lái)訓(xùn)練網(wǎng)絡(luò)幾乎不會(huì)有什么變化,即vanishing gradients problem;或者>1梯度非常大,以此修正網(wǎng)絡(luò)會(huì)不斷震蕩,無(wú)法形成一個(gè)收斂網(wǎng)絡(luò)。因而DNN的訓(xùn)練中可以形成很多tricks。。

1、初始化權(quán)重

起初采用正態(tài)分布隨機(jī)化初始權(quán)重,會(huì)使得原本單位的variance逐漸變得非常大。例如下圖的sigmoid函數(shù),靠近0點(diǎn)的梯度近似線性很敏感,但到了,即很強(qiáng)烈的輸入產(chǎn)生木訥的輸出。

詳解DNN訓(xùn)練中出現(xiàn)的問(wèn)題與解決方法方法

采用Xavier initialization,根據(jù)fan-in(輸入神經(jīng)元個(gè)數(shù))和fan-out(輸出神經(jīng)元個(gè)數(shù))設(shè)置權(quán)重。

并設(shè)計(jì)針對(duì)不同激活函數(shù)的初始化策略,如下圖(左邊是均態(tài)分布,右邊正態(tài)分布較為常用)

2、激活函數(shù)

一般使用ReLU,但是不能有小于0的輸入(dying ReLUs)

a.Leaky RELU

改進(jìn)方法Leaky ReLU=max(αx,x),小于0時(shí)保留一點(diǎn)微小特征。

詳解DNN訓(xùn)練中出現(xiàn)的問(wèn)題與解決方法方法

具體應(yīng)用

from tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_sets("/tmp/data/")reset_graph()n_inputs =28*28# MNISTn_hidden1 =300n_hidden2 =100n_outputs =10X=tf.placeholder(tf.float32, shape=(None, n_inputs), name="X")y=tf.placeholder(tf.int64, shape=(None), name="y")withtf.name_scope("dnn"): hidden1 =tf.layers.dense(X, n_hidden1, activation=leaky_relu, name="hidden1") hidden2 =tf.layers.dense(hidden1, n_hidden2, activation=leaky_relu, name="hidden2") logits =tf.layers.dense(hidden2, n_outputs, name="outputs")withtf.name_scope("loss"): xentropy =tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y, logits=logits) loss =tf.reduce_mean(xentropy, name="loss")learning_rate =0.01withtf.name_scope("train"): optimizer =tf.train.GradientDescentOptimizer(learning_rate) training_op = optimizer.minimize(loss)withtf.name_scope("eval"): correct =tf.nn.in_top_k(logits,y,1) accuracy =tf.reduce_mean(tf.cast(correct,tf.float32))init =tf.global_variables_initializer()saver =tf.train.Saver()n_epochs =40batch_size =50withtf.Session()assess: init.run() forepoch inrange(n_epochs): foriteration inrange(mnist.train.num_examples // batch_size): X_batch, y_batch = mnist.train.next_batch(batch_size) sess.run(training_op, feed_dict={X: X_batch,y: y_batch}) ifepoch %5==0: acc_train = accuracy.eval(feed_dict={X: X_batch,y: y_batch}) acc_test = accuracy.eval(feed_dict={X: mnist.validation.images,y: mnist.validation.labels}) print(epoch,"Batch accuracy:", acc_train,"Validation accuracy:", acc_test) save_path = saver.save(sess,"./my_model_final.ckpt")

b. ELU改進(jìn)

另一種改進(jìn)ELU,在神經(jīng)元小于0時(shí)采用指數(shù)變化

詳解DNN訓(xùn)練中出現(xiàn)的問(wèn)題與解決方法方法

#just specify the activation function when building each layerX= tf.placeholder(tf.float32, shape=(None, n_inputs), name="X")hidden1= tf.layers.dense(X, n_hidden1, activation=tf.nn.elu, name="hidden1")

c. SELU

最新提出的是SELU(僅給出關(guān)鍵代碼)

withtf.name_scope("dnn"): hidden1 =tf.layers.dense(X, n_hidden1, activation=selu, name="hidden1") hidden2 =tf.layers.dense(hidden1, n_hidden2, activation=selu, name="hidden2") logits =tf.layers.dense(hidden2, n_outputs, name="outputs")# train 過(guò)程means = mnist.train.images.mean(axis=0, keepdims=True)stds = mnist.train.images.std(axis=0, keepdims=True) +1e-10withtf.Session()assess: init.run() forepoch inrange(n_epochs): foriteration inrange(mnist.train.num_examples // batch_size): X_batch, y_batch = mnist.train.next_batch(batch_size) X_batch_scaled = (X_batch - means) / stds sess.run(training_op, feed_dict={X: X_batch_scaled,y: y_batch}) ifepoch %5==0: acc_train = accuracy.eval(feed_dict={X: X_batch_scaled,y: y_batch}) X_val_scaled = (mnist.validation.images - means) / stds acc_test = accuracy.eval(feed_dict={X: X_val_scaled,y: mnist.validation.labels}) print(epoch,"Batch accuracy:", acc_train,"Validation accuracy:", acc_test) save_path = saver.save(sess,"./my_model_final_selu.ckpt")3、Batch Normalization

在2015年,有研究者提出,既然使用mini-batch進(jìn)行操作,對(duì)每一批數(shù)據(jù)也可采用,在調(diào)用激活函數(shù)之前,先做一下normalization,使得輸出數(shù)據(jù)有一個(gè)較好的形狀,初始時(shí),超參數(shù)scaling(γ)和shifting(β)進(jìn)行適度縮放平移后傳遞給activation函數(shù)。步驟如下:

現(xiàn)今batch normalization已經(jīng)被TensorFlow實(shí)現(xiàn)成一個(gè)單獨(dú)的層,直接調(diào)用

測(cè)試時(shí),由于沒(méi)有mini-batch,故訓(xùn)練時(shí)直接使用訓(xùn)練時(shí)的mean和standard deviation(),實(shí)現(xiàn)代碼如下

import tensorflowastfn_inputs =28*28n_hidden1 =300n_hidden2 =100n_outputs =10batch_norm_momentum =0.9X=tf.placeholder(tf.float32, shape=(None, n_inputs), name="X")y=tf.placeholder(tf.int64, shape=(None), name="y")training =tf.placeholder_with_default(False, shape=(), name='training')withtf.name_scope("dnn"): he_init =tf.contrib.layers.variance_scaling_initializer() #相當(dāng)于單獨(dú)一層 my_batch_norm_layer = partial( tf.layers.batch_normalization, training=training, momentum=batch_norm_momentum) my_dense_layer = partial( tf.layers.dense, kernel_initializer=he_init) hidden1 = my_dense_layer(X, n_hidden1, name="hidden1") bn1 =tf.nn.elu(my_batch_norm_layer(hidden1))# 激活函數(shù)使用ELU hidden2 = my_dense_layer(bn1, n_hidden2, name="hidden2") bn2 =tf.nn.elu(my_batch_norm_layer(hidden2)) logits_before_bn = my_dense_layer(bn2, n_outputs, name="outputs") logits = my_batch_norm_layer(logits_before_bn)# 輸出層也做一個(gè)batch normalizationwithtf.name_scope("loss"): xentropy =tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y, logits=logits) loss =tf.reduce_mean(xentropy, name="loss")withtf.name_scope("train"): optimizer =tf.train.GradientDescentOptimizer(learning_rate) training_op = optimizer.minimize(loss)withtf.name_scope("eval"): correct =tf.nn.in_top_k(logits,y,1) accuracy =tf.reduce_mean(tf.cast(correct,tf.float32)) init =tf.global_variables_initializer()saver =tf.train.Saver()n_epochs =20batch_size =200#需要顯示調(diào)用訓(xùn)練時(shí)得出的方差均值,需要額外調(diào)用這些算子extra_update_ops =tf.get_collection(tf.GraphKeys.UPDATE_OPS)#在training和testing時(shí)不一樣withtf.Session()assess: init.run() forepoch inrange(n_epochs): foriteration inrange(mnist.train.num_examples // batch_size): X_batch, y_batch = mnist.train.next_batch(batch_size) sess.run([training_op, extra_update_ops], feed_dict={training:True,X: X_batch,y: y_batch}) accuracy_val = accuracy.eval(feed_dict={X: mnist.test.images, y: mnist.test.labels}) print(epoch,"Test accuracy:", accuracy_val) save_path = saver.save(sess,"./my_model_final.ckpt")4、Gradient Clipp

處理gradient之后往后傳,一定程度上解決梯度爆炸問(wèn)題。(但由于有了batch normalization,此方法用的不多)

threshold =1.0optimizer = tf.train.GradientDescentOptimizer(learning_rate)grads_and_vars = optimizer.compute_gradients(loss)capped_gvs = [(tf.clip_by_value(grad, -threshold, threshold),var) forgrad,varingrads_and_vars]training_op = optimizer.apply_gradients(capped_gvs)5、重用之前訓(xùn)練過(guò)的層

(Reusing Pretrained Layers)

對(duì)之前訓(xùn)練的模型稍加修改,節(jié)省時(shí)間,在深度模型訓(xùn)練(由于有很多層)中經(jīng)常使用。

一般相似問(wèn)題,分類數(shù)等和問(wèn)題緊密相關(guān)的output層與最后一個(gè)直接與output相關(guān)的隱層不可以直接用,仍需自己訓(xùn)練。

如下圖所示,在已訓(xùn)練出一個(gè)復(fù)雜net后,遷移到相對(duì)簡(jiǎn)單的net時(shí),hidden1和2固定不動(dòng),hidden3稍作變化,hidden4和output自己訓(xùn)練。。這在沒(méi)有自己GPU情況下是非常節(jié)省時(shí)間的做法。

詳解DNN訓(xùn)練中出現(xiàn)的問(wèn)題與解決方法方法

# 只選取需要的操作X=tf.get_default_graph().get_tensor_by_name("X:0")y=tf.get_default_graph().get_tensor_by_name("y:0")accuracy =tf.get_default_graph().get_tensor_by_name("eval/accuracy:0")training_op =tf.get_default_graph().get_operation_by_name("GradientDescent")# 如果你是原模型的作者,可以賦給模型一個(gè)清楚的名字保存下來(lái)forop in (X,y, accuracy, training_op): tf.add_to_collection("my_important_ops", op)# 如果你要使用這個(gè)模型X,y, accuracy, training_op =tf.get_collection("my_important_ops")# 訓(xùn)練時(shí)withtf.Session()assess: saver.restore(sess,"./my_model_final.ckpt") forepoch inrange(n_epochs): foriteration inrange(mnist.train.num_examples // batch_size): X_batch, y_batch = mnist.train.next_batch(batch_size) sess.run(training_op, feed_dict={X: X_batch,y: y_batch}) accuracy_val = accuracy.eval(feed_dict={X: mnist.test.images, y: mnist.test.labels}) print(epoch,"Test accuracy:", accuracy_val) save_path = saver.save(sess,"./my_new_model_final.ckpt")

a. Freezing the Lower Layers

訓(xùn)練時(shí)固定底層參數(shù),達(dá)到Freezing the Lower Layers的目的

# 以MINIST為例n_inputs=28*28# MNISTn_hidden1=300# reusedn_hidden2=50# reusedn_hidden3=50# reusedn_hidden4=20# new!n_outputs=10# new!X= tf.placeholder(tf.float32, shape=(None, n_inputs), name="X")y= tf.placeholder(tf.int64, shape=(None), name="y")withtf.name_scope("dnn"): hidden1 =tf.layers.dense(X, n_hidden1, activation=tf.nn.relu, name="hidden1") # reused frozen hidden2 =tf.layers.dense(hidden1, n_hidden2, activation=tf.nn.relu, name="hidden2") # reused frozen hidden2_stop =tf.stop_gradient(hidden2) hidden3 =tf.layers.dense(hidden2_stop, n_hidden3, activation=tf.nn.relu, name="hidden3") # reused, not frozen hidden4 =tf.layers.dense(hidden3, n_hidden4, activation=tf.nn.relu, name="hidden4") # new! logits =tf.layers.dense(hidden4, n_outputs, name="outputs") # new!withtf.name_scope("loss"): xentropy =tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y, logits=logits) loss =tf.reduce_mean(xentropy, name="loss")withtf.name_scope("eval"): correct =tf.nn.in_top_k(logits,y,1) accuracy =tf.reduce_mean(tf.cast(correct,tf.float32), name="accuracy")withtf.name_scope("train"): optimizer =tf.train.GradientDescentOptimizer(learning_rate) training_op = optimizer.minimize(loss)reuse_vars =tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES, scope="hidden[123]") # regular expressionreuse_vars_dict = dict([(var.op.name, var)forvar in reuse_vars])restore_saver =tf.train.Saver(reuse_vars_dict) #torestore layers1-3init =tf.global_variables_initializer()saver =tf.train.Saver()withtf.Session()assess: init.run() restore_saver.restore(sess,"./my_model_final.ckpt") forepoch inrange(n_epochs): foriteration inrange(mnist.train.num_examples // batch_size): X_batch, y_batch = mnist.train.next_batch(batch_size) sess.run(training_op, feed_dict={X: X_batch,y: y_batch}) accuracy_val = accuracy.eval(feed_dict={X: mnist.test.images, y: mnist.test.labels}) print(epoch,"Test accuracy:", accuracy_val) save_path = saver.save(sess,"./my_new_model_final.ckpt")

b. Catching the Frozen Layers

訓(xùn)練時(shí)直接從lock層之后的層開(kāi)始訓(xùn)練,Catching the Frozen Layers

# 以MINIST為例n_inputs =28*28# MNISTn_hidden1 =300# reusedn_hidden2 =50# reusedn_hidden3 =50# reusedn_hidden4 =20# new!n_outputs =10# new!X=tf.placeholder(tf.float32, shape=(None, n_inputs), name="X")y=tf.placeholder(tf.int64, shape=(None), name="y")withtf.name_scope("dnn"): hidden1 =tf.layers.dense(X, n_hidden1, activation=tf.nn.relu, name="hidden1") # reused frozen hidden2 =tf.layers.dense(hidden1, n_hidden2, activation=tf.nn.relu, name="hidden2") # reused frozen & cached hidden2_stop =tf.stop_gradient(hidden2) hidden3 =tf.layers.dense(hidden2_stop, n_hidden3, activation=tf.nn.relu, name="hidden3") # reused, not frozen hidden4 =tf.layers.dense(hidden3, n_hidden4, activation=tf.nn.relu, name="hidden4") # new! logits =tf.layers.dense(hidden4, n_outputs, name="outputs") # new!withtf.name_scope("loss"): xentropy =tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y, logits=logits) loss =tf.reduce_mean(xentropy, name="loss")withtf.name_scope("eval"): correct =tf.nn.in_top_k(logits,y,1) accuracy =tf.reduce_mean(tf.cast(correct,tf.float32), name="accuracy")withtf.name_scope("train"): optimizer =tf.train.GradientDescentOptimizer(learning_rate) training_op = optimizer.minimize(loss)reuse_vars =tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES, scope="hidden[123]") # regular expressionreuse_vars_dict = dict([(var.op.name, var)forvar in reuse_vars])restore_saver =tf.train.Saver(reuse_vars_dict) #torestore layers1-3init =tf.global_variables_initializer()saver =tf.train.Saver()importnumpyasnpn_batches = mnist.train.num_examples // batch_sizewithtf.Session()assess: init.run() restore_saver.restore(sess,"./my_model_final.ckpt") h2_cache = sess.run(hidden2, feed_dict={X: mnist.train.images}) h2_cache_test = sess.run(hidden2, feed_dict={X: mnist.test.images})# not shown in the book forepochinrange(n_epochs): shuffled_idx = np.random.permutation(mnist.train.num_examples) hidden2_batches = np.array_split(h2_cache[shuffled_idx], n_batches) y_batches = np.array_split(mnist.train.labels[shuffled_idx], n_batches) forhidden2_batch, y_batchinzip(hidden2_batches, y_batches): sess.run(training_op, feed_dict={hidden2:hidden2_batch, y:y_batch}) accuracy_val = accuracy.eval(feed_dict={hidden2: h2_cache_test,# not shown y: mnist.test.labels}) # not shown print(epoch,"Test accuracy:", accuracy_val) # not shown save_path = saver.save(sess,"./my_new_model_final.ckpt")6、Unsupervised Pretraining

該方法的提出,讓人們對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練有了一個(gè)新的認(rèn)識(shí),可以利用不那么昂貴的未標(biāo)注數(shù)據(jù),訓(xùn)練數(shù)據(jù)時(shí)沒(méi)有標(biāo)注的數(shù)據(jù)先做一個(gè)Pretraining訓(xùn)練出一個(gè)差不多的網(wǎng)絡(luò),再使用帶label的數(shù)據(jù)做正式的訓(xùn)練進(jìn)行反向傳遞,增進(jìn)深度模型可用性

詳解DNN訓(xùn)練中出現(xiàn)的問(wèn)題與解決方法方法

也可以在相似模型中做pretraining

7、Faster Optimizers

在傳統(tǒng)的SGD上提出改進(jìn)

有Momentum optimization(最早提出,利用慣性沖量),Nesterov Accelerated Gradient,AdaGrad(adaptive gradient每層下降不一樣),RMSProp,Adam optimization(結(jié)合adagrad和momentum,用的最多,是缺省的optimizer)

a. momentum optimization

記住之前算出的gradient方向,作為慣性加到當(dāng)前梯度上。相當(dāng)于下山時(shí),SGD是靜止的之判斷當(dāng)前最陡的是哪里,而momentum相當(dāng)于在跑的過(guò)程中不斷修正方向,顯然更加有效。

b. Nesterov Accelerated Gradient

只計(jì)算當(dāng)前這點(diǎn)的梯度,超前一步,再往前跑一點(diǎn)計(jì)算會(huì)更準(zhǔn)一些。

詳解DNN訓(xùn)練中出現(xiàn)的問(wèn)題與解決方法方法

c. AdaGrad

各個(gè)維度計(jì)算梯度作為分母,加到當(dāng)前梯度上,不同維度梯度下降不同。如下圖所示,橫軸比縱軸平緩很多,傳統(tǒng)gradient僅僅單純沿法線方向移動(dòng),而AdaGrad平緩的θ1走的慢點(diǎn),陡的θ2走的快點(diǎn),效果較好。詳解DNN訓(xùn)練中出現(xiàn)的問(wèn)題與解決方法方法

但也有一定缺陷,s不斷積累,分母越來(lái)越大,可能導(dǎo)致最后走不動(dòng)。

d. RMSProp(Adadelta)

只加一部分,加一個(gè)衰減系數(shù)只選取相關(guān)的最近幾步相關(guān)系數(shù)

e. Adam Optimization

目前用的最多效果最好的方法,結(jié)合AdaGrad和Momentum的優(yōu)點(diǎn)

# TensorFlow中調(diào)用方法optimizer= tf.train.MomentumOptimizer(learning_rate=learning_rate,momentum=0.9)optimizer= tf.train.MomentumOptimizer(learning_rate=learning_rate,momentum=0.9, use_nesterov=True)optimizer= tf.train.RMSPropOptimizer(learning_rate=learning_rate,momentum=0.9, decay=0.9, epsilon=1e-10)# 可以看出AdamOptimizer最省心了optimizer= tf.train.AdamOptimizer(learning_rate=learning_rate)8、learning rate scheduling

learning rate的設(shè)置也很重要,如下圖所示,太大不會(huì)收斂到全局最優(yōu),太小收斂效果最差。最理想情況是都一定情況縮小learning rate,先大后小

詳解DNN訓(xùn)練中出現(xiàn)的問(wèn)題與解決方法方法

a. Exponential Scheduling

指數(shù)級(jí)下降學(xué)習(xí)率

initial_learning_rate=0.1decay_steps=10000decay_rate=1/10global_step= tf.Variable(0, trainable=False)learning_rate= tf.train.exponential_decay(initial_learning_rate, global_step, decay_steps, decay_rate)optimizer= tf.train.MomentumOptimizer(learning_rate, momentum=0.9)training_op= optimizer.minimize(loss, global_step=global_step)9、Avoiding Overfitting Through Regularization

解決深度模型過(guò)擬合問(wèn)題

a. Early Stopping

訓(xùn)練集上錯(cuò)誤率開(kāi)始上升時(shí)停止

b. l1和l2正則化

# construct the neural networkbase_loss =tf.reduce_mean(xentropy, name="avg_xentropy")reg_losses =tf.reduce_sum(tf.abs(weights1)) +tf.reduce_sum(tf.abs(weights2))loss =tf.add(base_loss, scale * reg_losses, name="loss")with arg_scope( [fully_connected], weights_regularizer=tf.contrib.layers.l1_regularizer(scale=0.01)): hidden1 = fully_connected(X, n_hidden1, scope="hidden1") hidden2 = fully_connected(hidden1, n_hidden2, scope="hidden2") logits = fully_connected(hidden2, n_outputs, activation_fn=None,scope="out")reg_losses =tf.get_collection(tf.GraphKeys.REGULARIZATION_LOSSES)loss =tf.add_n([base_loss] + reg_losses, name="loss")

c. dropout

一種新的正則化方法,隨機(jī)生成一個(gè)概率,大于某個(gè)閾值就扔掉,隨機(jī)扔掉一些神經(jīng)元節(jié)點(diǎn),結(jié)果表明dropout很能解決過(guò)擬合問(wèn)題??蓮?qiáng)迫現(xiàn)有神經(jīng)元不會(huì)集中太多特征,降低網(wǎng)絡(luò)復(fù)雜度,魯棒性增強(qiáng)。

加入dropout后,training和test的準(zhǔn)確率會(huì)很接近,一定程度解決overfit問(wèn)題

training =tf.placeholder_with_default(False, shape=(), name='training')dropout_rate =0.5# ==1- keep_probX_drop =tf.layers.dropout(X, dropout_rate, training=training)withtf.name_scope("dnn"): hidden1 =tf.layers.dense(X_drop, n_hidden1, activation=tf.nn.relu, name="hidden1") hidden1_drop =tf.layers.dropout(hidden1, dropout_rate, training=training) hidden2 =tf.layers.dense(hidden1_drop, n_hidden2, activation=tf.nn.relu, name="hidden2") hidden2_drop =tf.layers.dropout(hidden2, dropout_rate, training=training) logits =tf.layers.dense(hidden2_drop, n_outputs, name="outputs")

d. Max-Norm Regularization

可以把超出threshold的權(quán)重截取掉,一定程度上讓網(wǎng)絡(luò)更加穩(wěn)定

defmax_norm_regularizer(threshold, axes=1, name="max_norm", collection="max_norm"): defmax_norm(weights): clipped = tf.clip_by_norm(weights, clip_norm=threshold, axes=axes) clip_weights = tf.assign(weights, clipped, name=name) tf.add_to_collection(collection, clip_weights) returnNone# there is no regularization loss term returnmax_normmax_norm_reg = max_norm_regularizer(threshold=1.0)hidden1 = fully_connected(X, n_hidden1, scope="hidden1", weights_regularizer=max_norm_reg)

e. Date Augmentation

深度學(xué)習(xí)網(wǎng)絡(luò)是一個(gè)數(shù)據(jù)饑渴模型,需要很多的數(shù)據(jù)。擴(kuò)大數(shù)據(jù)集,例如圖片左右鏡像翻轉(zhuǎn),隨機(jī)截取,傾斜隨機(jī)角度,變換敏感度,改變色調(diào)等方法,擴(kuò)大數(shù)據(jù)量,減少overfit可能性

10、default DNN configuration


聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:【機(jī)器學(xué)習(xí)】DNN訓(xùn)練中的問(wèn)題與方法

文章出處:【微信號(hào):AI_shequ,微信公眾號(hào):人工智能愛(ài)好者社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    gitee 常見(jiàn)問(wèn)題及解決方法

    Gitee作為國(guó)內(nèi)的代碼托管平臺(tái),在使用過(guò)程中可能會(huì)遇到一些問(wèn)題。以下是一些常見(jiàn)問(wèn)題及其解決方法: 一、倉(cāng)庫(kù)創(chuàng)建與代碼推送問(wèn)題 倉(cāng)庫(kù)已存在遠(yuǎn)程配置 問(wèn)題 :在嘗試為已有項(xiàng)目添加遠(yuǎn)程倉(cāng)庫(kù)配置時(shí),可能會(huì)
    的頭像 發(fā)表于 01-06 10:06 ?44次閱讀

    mac的常見(jiàn)問(wèn)題解決方法

    Mac常見(jiàn)問(wèn)題解決方法 1. 系統(tǒng)啟動(dòng)緩慢 問(wèn)題描述: 啟動(dòng)Mac時(shí),系統(tǒng)啟動(dòng)緩慢,甚至出現(xiàn)卡頓現(xiàn)象。 解決方法: 檢查啟動(dòng)項(xiàng)目: 打開(kāi)系統(tǒng)偏好設(shè)置中的“用戶與群組”,點(diǎn)擊“登錄項(xiàng)”,移除不必要
    的頭像 發(fā)表于 12-19 15:02 ?227次閱讀

    三坐標(biāo)測(cè)量機(jī)常見(jiàn)故障及解決方法

    可能會(huì)出現(xiàn)各種故障。以下是一些常見(jiàn)的故障及其解決方法: 1. 機(jī)械故障 1.1 導(dǎo)軌磨損 故障現(xiàn)象 :測(cè)量精度下降,機(jī)器運(yùn)行時(shí)有異常噪音。 解決方法 :檢查導(dǎo)軌是否磨損,必要時(shí)更換導(dǎo)軌或進(jìn)行修復(fù)。 1.2 軸承損壞 故障現(xiàn)象 :
    的頭像 發(fā)表于 12-19 10:01 ?260次閱讀

    Pytorch深度學(xué)習(xí)訓(xùn)練方法

    掌握這 17 種方法,用最省力的方式,加速你的 Pytorch 深度學(xué)習(xí)訓(xùn)練。
    的頭像 發(fā)表于 10-28 14:05 ?223次閱讀
    Pytorch深度學(xué)習(xí)<b class='flag-5'>訓(xùn)練</b>的<b class='flag-5'>方法</b>

    TDA2x的DSS BT656解決方法

    電子發(fā)燒友網(wǎng)站提供《TDA2x的DSS BT656解決方法.pdf》資料免費(fèi)下載
    發(fā)表于 10-11 09:38 ?0次下載
    TDA2x的DSS BT656<b class='flag-5'>解決方法</b>

    CAN盒指示燈不亮的解決方法

    CAN盒指示燈不亮可能有多種原因,以下是一些常見(jiàn)的解決方法。
    的頭像 發(fā)表于 09-20 14:53 ?681次閱讀

    功率貼片電感的電感值不穩(wěn)定的解決方法

    電子發(fā)燒友網(wǎng)站提供《功率貼片電感的電感值不穩(wěn)定的解決方法.docx》資料免費(fèi)下載
    發(fā)表于 09-19 17:40 ?0次下載

    接地網(wǎng)阻值偏大的原因及解決方法

     地網(wǎng)接地電阻測(cè)試儀是保障電氣設(shè)備安全運(yùn)行的重要組成部分,但在實(shí)際使用中,我們可能會(huì)遇到接地網(wǎng)阻值偏大的情況。接下來(lái),鴻蒙小小編介紹造成這種情況的原因,并提供一些解決方法。   1、接地體積不足
    發(fā)表于 06-17 09:19

    鴻蒙OpenHarmony:【常見(jiàn)編譯問(wèn)題和解決方法

    常見(jiàn)編譯問(wèn)題和解決方法
    的頭像 發(fā)表于 05-11 16:09 ?2279次閱讀

    常見(jiàn)的DC電源模塊故障及解決方法

    BOSHIDA 常見(jiàn)的DC電源模塊故障及解決方法 DC電源模塊廣泛應(yīng)用于各種電子設(shè)備中,為其提供穩(wěn)定的直流電源。然而,由于長(zhǎng)期使用或其他原因,DC電源模塊有時(shí)會(huì)出現(xiàn)故障。本文將介紹一些常見(jiàn)的DC
    的頭像 發(fā)表于 04-01 14:02 ?1364次閱讀
    常見(jiàn)的DC電源模塊故障及<b class='flag-5'>解決方法</b>

    分析電源電感發(fā)熱解決方法

    電子發(fā)燒友網(wǎng)站提供《分析電源電感發(fā)熱解決方法.docx》資料免費(fèi)下載
    發(fā)表于 03-29 14:39 ?3次下載

    EMI電磁干擾:原理、影響及解決方法詳解

    EMI電磁干擾:原理、影響及解決方法詳解?|深圳比創(chuàng)達(dá)電子
    的頭像 發(fā)表于 03-21 10:02 ?897次閱讀
    EMI電磁干擾:原理、影響及<b class='flag-5'>解決方法</b><b class='flag-5'>詳解</b>?

    手機(jī)陀螺儀失靈解決方法

    手機(jī)陀螺儀是一種用于感知和測(cè)量設(shè)備旋轉(zhuǎn)、傾斜和方向的傳感器。失靈的陀螺儀可能導(dǎo)致手機(jī)在運(yùn)動(dòng)控制、游戲和導(dǎo)航等應(yīng)用中出現(xiàn)問(wèn)題。下面將詳細(xì)介紹陀螺儀失靈的原因和解決方法。 陀螺儀失靈的原因 1.硬件故障
    的頭像 發(fā)表于 01-30 10:06 ?2.9w次閱讀

    手機(jī)觸摸屏失靈的原因及解決方法 手機(jī)觸摸屏失靈怎么關(guān)機(jī)

    手機(jī)觸摸屏失靈的原因及解決方法: 一、原因: 軟件問(wèn)題:當(dāng)手機(jī)運(yùn)行過(guò)程中出現(xiàn)一些錯(cuò)誤或者存儲(chǔ)空間不足時(shí),可能會(huì)導(dǎo)致觸摸屏失靈。此時(shí),重啟或者進(jìn)行軟件更新可能會(huì)解決問(wèn)題。 硬件問(wèn)題:如果手機(jī)摔落、遭受
    的頭像 發(fā)表于 01-24 17:48 ?2.1w次閱讀

    PCB焊盤(pán)脫落的原因及解決方法

    PCB焊盤(pán)脫落的原因及解決方法? PCB(印刷電路板)焊盤(pán)的脫落是一個(gè)常見(jiàn)的問(wèn)題,它會(huì)導(dǎo)致電子設(shè)備無(wú)法正常工作。本文將詳細(xì)介紹焊盤(pán)脫落的原因以及解決方法。 一、焊盤(pán)脫落的原因 1. PCB設(shè)計(jì)
    的頭像 發(fā)表于 01-18 11:21 ?6968次閱讀