您当前的位置：首页 > IT编程 > 数据集
\| C语言 \| Java \| VB \| VC \| python \| Android \| TensorFlow \| C++ \| oracle \| 学术与代码 \| cnn卷积神经网络 \| gnn \| 图像修复 \| Keras \| 数据集 \| Neo4j \| 自然语言处理 \| 深度学习 \| 医学CAD \| 医学影像 \| 超参数 \| pointnet \| pytorch \| 异常检测 \| Transformers \| 情感分类 \| 知识图谱 \|

自学教程：常用小样本数据集介绍与下载

51自学网 2021-10-06 20:13:05

数据集

这篇教程常用小样本数据集介绍与下载写得很实用，希望能帮到您。

常用小样本数据集介绍与下载汇总

深度学习 # 小样本学习小样本学习数据集介绍

转载文章：本文整理了近些年常用的小样本数据集，提供了数据集介绍，参考文献以及下载地址。我手头有资源的都已经上传至百度云盘，其他数据集也提供了官方的下载地址（有些可能需要翻墙）。最后还对各个数据集的情况做了一个简单的汇总。

1.Omniglot

Omniglot数据集是由来自50种不同语言的1,623个手写字符构成的，每个字符都有20个不同的笔迹，这就构成了一个样本类别极多（1623种），但每种类别的样本数量极少（20个）的小样本手写字符数据集。使用中通常选择1200种字符作为训练集，剩余的423种字符作为验证集，并通过旋转90°，180°和270°进行数据集扩张，每张图片通过裁剪将尺寸统一为28*28。
参考文献：Lake B, Salakhutdinov R, Gross J, et al. One shot learning of simple visual concepts[C]//Proceedings of the annual meeting of the cognitive science society. 2011, 33(33).
下载地址：https://pan.baidu.com/s/19Y5aGfa-lNEZTDUeL1jP4g
提取码：4y3z

2. miniImageNet

miniImageNet数据集是从ImageNet数据集中选择了60,000张图像构成的，共100个类别，每个类别有600张图像，每幅图像的尺寸为84*84。使用中通常选择其中80个类别的图像作为训练集，剩余的20个类别的图像作为验证集。也有的文章将其分为基础集（Base Class，64种），验证集（Validation Class，16种）和新类别集（Novel Class，20种）。
参考文献：Vinyals O, Blundell C, Lillicrap T, et al. Matching networks for one shot learning[C]//Advances in neural information processing systems. 2016: 3630-3638.
下载地址：https://pan.baidu.com/s/1nqBSA1w5mQuhlrQeCY4HgA
提取码：ajrz

3. tieredImageNet

tieredImageNet数据集也是从ImageNet数据集中选取的，包含34个大类（Categories），每个大类有包含10-30个小类（Classes），每个类别有数量不等的多个图像样本，共计608个类别，779,165张图像（平均每个类别包含1281张图片）。34个大类可划分为训练集（20大类），验证集（6大类）和测试集（8大类），数据集划分情况如下图。

参考文献：Ren M, Triantafillou E, Ravi S, et al. Meta-learning for semi-supervised few-shot classification[J]. arXiv preprint arXiv:1803.00676, 2018.
下载地址：
https://drive.google.com/uc?export=download&confirm=_SLS&id=1g1aIDy2Ar_MViF2gDXFYDBTR-HYecV07

4. CUB-200

CUB-200数据集全称为Caltech-UCSD Birds-200-2011数据集，是由加利福尼亚理工学院提供的鸟类数据库，共包含200种鸟类的11,788张图像。使用中通常划分为训练集（100种），验证集（50种）和测试集（50种），图像尺寸统一裁剪为84*84。
参考文献：Catherine Wah, Steve Branson, Peter Welinder, Pietro Perona, and Serge Belongie. The caltech-ucsd birds- 200-2011 dataset. 2011.
下载地址：https://pan.baidu.com/s/1DEmLxePvDuJX1goSzM9r6Q
提取码：f1l5

5. CIFAR-FS

CIFAR-FS数据集全称为CIFAR100 Few-Shots数据集，是来自于CIFAR 100数据集，共包含100类别，每个类别600张图像，合计60,000张图像。使用中通常划分为训练集（64种），验证集（16种）和测试集（20种），图像尺寸统一为32*32。
参考文献：Bertinetto L, Henriques J F, Torr P H S, et al. Meta-learning with differentiable closed-form solvers[J]. arXiv preprint arXiv:1805.08136, 2018.
下载地址：https://pan.baidu.com/s/1HqRUw3dmsMBInt_Fh3J_Uw
提取码：ub38

6. ImageNet-1K Challenge

ImageNet-1K Challenge数据集同样来自ImageNet数据集，是共包含1000类别。使用中通常划分为基础数据集（389个类别）和新样本数据集（611种）。
参考文献：Hariharan B, Girshick R. Low-shot visual recognition by shrinking and hallucinating features[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 3018-3027.
下载地址：http://www.image-net.org/

7. FC100

FC100数据集全称是Few-shot CIFAR100数据集，与上文的CIFAR-FS数据集类似，同样来自CIFAR100数据集，共包含100类别，每个类别600张图像，合计60,000张图像。但不同之处在于 FC100不是按照类别（Class）进行划分的，而是按照超类（Superclass）进行划分的。共包含20个超类（60个类别），其中训练集12个超类，验证集4个超类（20个类别），测试集4个超类（20个类别）。
参考文献：Oreshkin B, López P R, Lacoste A. Tadam: Task dependent adaptive metric for improved few-shot learning[C]//Advances in Neural Information Processing Systems. 2018: 721-731.
下载地址：https://pan.baidu.com/s/1Wnlp1-obKsMLcHITYQ1CLg
提取码：kcd6

小样本数据集汇总表

小样本数据集	来源	类别数	图片数	图片尺寸
Omniglot	-	1623	32,460	28*28
miniImageNet	ImageNet	100	60,000	84*84
tieredImageNet	ImageNet	608	779,165	84*84
ImageNet 1K	ImageNet	1000	-	-
CIFAR-FS	CIFAR 100	100	60,000	32*32
FC100	CIFAR 100	100	60,000	32*32
CUB-200	-	200	11,788	84*84

miniImagenet数据集处理
CUB200-2011鸟类细粒度数据集训练集和测试集划分python代码