这篇教程二分类问题中,大量的负样本会影响到网络的训练吗?写得很实用,希望能帮到您。
在分类问题中,比如我们训练一个网络,让它识别出这张照片是否为人,我们的数据集假设有张1000张,其中100张为人,900张不是人(里面包含了车,飞机,花朵等乱七八糟的图片),可以看到这个数据集出现了负样本远大于正样本的情况.现在假设我们把这1000张图片一次性送入网络进行训练,那么得到的损失值如何计算?负样本对损失值有贡献吗?
答案:
(1)损失值loss计算公式:
假设真实标签值y_true=[y1,y2,y3,...yn]
预测值y_pred=[z1,z2,z3,...zn]
(1)
(2) 负样本对损失值有贡献,主要体现到上面的loss计算上,虽然负样本标签值=0,分子中遇到负样本0,y_i*log(z_i)=0, 但是在分母中,n的值是正负样本样本的总数量,所以负样本对损失值是有贡献的,特别当正负样本比例失衡,负样本远大于正样本时,会造成训练进行不下去.
还是用一段程序来证明吧
import tensorflow as tf
y_true=[[0], [0],[0],[0],[1], [1]]#真实标签
y_pre=[[0.9],[0.9],[0.9],[0.9],[0.6],[0.5]]#预测值
cross_entropy=-tf.reduce_mean(y_true*tf.log(tf.clip_by_value(y_pre,1e-10,1.0)))#-ylogp
a=-tf.log(0.6)-tf.log(0.5)#就算所有样本的损失和,可以看出这里负样本因为标签值=0,所以无论预测值是多少,对损失和是没有影响的
with tf.Session() as sess:
print(sess.run(a))#1.20397
print(sess.run(a / 2))#0.601986
print(sess.run(a / 6))#0.200662
print(sess.run(cross_entropy))#0.200662#这里可以看出经过reduce_mean之后,这个是按照所有的样本数量来求平均值的,虽然前面正样本只有2个,
# 但是算平均损失的话,这里是除以样本总数的,所以随着负样本的增多,当其数量远远大于正样本数量时,无论网络对于正样本是否预测正确,最后的总的损失值会很小,
#即由负样本主导了损失函数值,造成损失函数值非常小,无法反向传播,训练失败
完整例子,来源于tensorflow实战google深度学习框架
import tensorflow as tf
from numpy.random import RandomState
batch_size=8
w1=tf.Variable(tf.random_normal([2,3],stddev=1,seed=1))#第一个权重矩阵
#tf.randdom_normal(shape,mean=0.0,stddev=1.0,dtype=tf.float32,seed=None,name=None)
#shape:输出张量的形状,必选,mean正态分布的均值,默认=0,stddev标准差,默认=1,dtype,输出的类型,默认=tf.float32
#seed随机数种子,是一个整数,当设置之后,每次生成的随机数都一样,name操作的名称
w2=tf.Variable(tf.random_normal([3,1],stddev=1,seed=1))#生成3行1列矩阵
-
x=tf.placeholder(tf.float32,shape=(None,2),name='x-input')#训练样本,?x2的矩阵
y_=tf.placeholder(tf.float32,shape=(None,1),name='y-input')#训练样本的标签,?x1的矩阵
a=tf.matmul(x,w1)#计算x*w1,[?,2]*[2,3]=[?,3]
y=tf.matmul(a,w2)#计算a*w2=x*w1*w2,[?,2]*[2,3]*[3,1=[?,3]*[3,1]=[?,1]
cross_entropy=-tf.reduce_mean(y_*tf.log(tf.clip_by_value(y,1e-10,1.0)))#-ylogp
#tf.reduce_mean(input_tensor,axis=None,)函数用于计算张量tensor沿着指定的数轴tensor的某一维度)上的平均值,主要用作将维或者计算tensor
# (图像)的平均值,
#第一个参数input_tensor:输入的待降维的tensor
#axis: 指定的轴,如果不指定,则计算所有元素的均值
train_step=tf.train.AdamOptimizer(0.001).minimize(cross_entropy)
rdm=RandomState(1)#因为这里固定了随机数种子,所以每次运行程序,生成的训练样本都是一样的
dataset_size=3
X=rdm.rand(dataset_size,2)#生成128x2的训练样本
Y=[[int(x1+x2<1)] for (x1,x2) in X]#对训练样本生成标签,值=0或1
-
with tf.Session() as sess:
init_op=tf.initialize_all_variables()
sess.run(init_op)
print(sess.run(w1))
print(sess.run(w2))
# print('x', sess.run(X))
# print('y', sess.run(Y))
steps=5000
for i in range(steps):
start=(i*batch_size)%dataset_size
end=min(start+batch_size,dataset_size)
sess.run(train_step,feed_dict={x:X[start:end],y_:Y[start:end]})
if i%1000==0:
total_cross_entropy=sess.run(cross_entropy,feed_dict={x:X,y_:Y})
print('after %d training steps, cross entropy on all data is %g'%(i,total_cross_entropy))#%g啥意思?
print(sess.run(w1))
print(sess.run(w2))
-
-
解决方案:
挖坑1: 从等式(1)可以看出负样本对损失函数值的影响主要体现在分母上,那我干脆对于y_true, 多加一列,标记一下其是负样本,这样我就不把它统计到样本总量中不久可以了吗?
具体操作:把y_true中值=1的个数统计出来,假设=m,求均值时,分母=m即可.这个操作可以在retinanet或其他有构造anchor的代码中发现.
cls_loss = focal_weight * keras.backend.binary_crossentropy(target=labels, output=classification)
-
# compute the normalizer: the number of positive anchors
normalizer = backend.where(keras.backend.equal(anchor_state, 1))#只计算正样本的数量,忽略负样本的数量
normalizer = keras.backend.cast(keras.backend.shape(normalizer)[0], keras.backend.floatx())
normalizer = keras.backend.maximum(1.0, normalizer)#尽管anchor中负样本特别多,这里算平均值时只除以正样本的数量,可有效避免负样本主导损失函数造成loss很小,
#导致的训练失败
挖坑2:在实际的应用场景中,做目标检测时,同一张图片中会出现多个目标,而且这多个目标可能属于不同的类别中,比如在一张图片中出现了一个人和一群狗,我们的网络任务为在这图片中找出人和狗,并识别出是狗还是人,所以这里我们对同一张图片,就会
后面问题不知道如何描述了,让我想想再写,2019-09-04 深度可分离卷积和正常卷积图文解析浅显易懂 损失函数改进之Large-Margin Softmax Loss |