内容目录
什么是数据不均衡问题这里简单说明一下,重点是操作和应用:1、数据不均衡问题2、常见的解决方法函数说明准备工作功能说明参数说明参数完整代码效果展示总结
什么是数据不均衡问题
详细说明,请参考:https://blog.csdn.net/Yaphat/article/details/60348946
这里简单说明一下,重点是操作和应用:
1、数据不均衡问题
在大部分情况下,我们认为不同类别的数据是均匀分布的,很多算法也是基于这个假设,但是在真实的情况下,往往都不是如此的。例如,机器发送故障的情况是我们想要预测的,但实际上故障的概率是很低的,所以导致故障的样本量很少,即使你将所有的预测结果都设置为正常,准确率依然很高,但这个模型是一个没有用的模型,这种类似的例子是非常常见的。
2、常见的解决方法
解决的方案很多,主要从两个方面考虑(面试的时候可能会问)
在项目中,我们可能没那么多时间去思考从算法方面去解决,更多的时候想的是能用就行,但是网上很多的例子很多是基于内置的数据,这是非常让人难受的,或者是基于一张图片进行数据增强,很痛苦。更一般的情况是,对训练集下的某一个文件夹的所有图片进行数据增强,这就是我写这个的理由。
函数说明
准备工作
所使用的环境
功能说明
1)ImageDataGenerator 图片生成器
参数说明
备注:对于单张图片的数据增强,可以参看ImageDataGenerator和flow的使用说明:https://blog.csdn.net/hnu2012/article/details/54017564
from keras.preprocessing.image import ImageDataGenerator
datagen = ImageDataGenerator(
rotation_range=40,
width_shift_range=0.2,
height_shift_range=0.2,
rescale=1./255,
shear_range=0.2,
zoom_range=0.2,
horizontal_flip=True,
fill_mode='nearest',
cval=0,
channel_shift_range=0,
horizontal_flip=False,
vertical_flip=False,
rescale=None)
参数
rotation_range:整数,数据提升时图片随机转动的角度
2)flow_from_directory
gen = datagen.flow_from_directory(
path,
target_size=(224, 224),
batch_size=15,
save_to_dir=dst_path,#生成后的图像保存路径
save_prefix='xx',
save_format='jpg')
for i in range(6):
gen.next()
"""
path:文件读入的路径,必须是子文件夹的上一级(这里是个坑,不过试一哈就懂了)
target_size:图片resize成的尺寸,不设置会默认设置为(256.256)
batch_size:每次输入的图片的数量,例如batch_size=32,一次进行增强的数量为32,
个人经验:batch_size的大小最好是应该和文件的数量是可以整除的关系
save_to_dir:增强后图片的保存位置
save_prefix:文件名加前缀,方便查看
save_format:保存图片的数据格式
产生的图片总数:batch_size*6(即range中的数字)
"""
完整代码
from keras.preprocessing.image import ImageDataGenerator
path = 'E:/C3D_Data/train' # 类别子文件夹的上一级
dst_path = 'E:/C3D_Data/train_result'
# 图片生成器
datagen = ImageDataGenerator(
rotation_range=5,
width_shift_range=0.02,
height_shift_range=0.02,
shear_range=0.02,
horizontal_flip=True,
vertical_flip=True
)
gen = datagen.flow_from_directory(
path,
target_size=(224, 224),
batch_size=15,
save_to_dir=dst_path,#生成后的图像保存路径
save_prefix='xx',
save_format='jpg')
for i in range(6):
gen.next()
效果展示
总结
1、能基本实现我们需要的数据增强的要求
这里需要强调一点,ImageDataGenerator里面应该是每一张图片进去都会随机有可能受到所有的操作(例如裁剪,旋转等)的作用
希望每一篇用心写的推文都能帮助到你,可能你已经是大神了,这些对你没啥用,但是这却是新手一开始都会遇到的难题,不想大家因为一点小小的挫折就放弃,所以推文一方面是记录自己真实遇到的坑,另一面也希望能够提升自己的表达能力。
代码已经更新到:https://github.com/SCUTPZW/AI_study/tree/master
希望能够得到你们一颗真心的star(还没被点过)