1.《Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion Model》--【多模态讽刺识别】 2019年。论文中建立的数据集,包含文本和图像两个模态,具体来说是三个模态,文本部分包含两个方面:一个是描述(文本模态),另一个是图像的属性,即图像包含那些东西,用文字描述(也可以归类为属性模态)。数据集较好之处是给出了原始数据,即有原始的文本,原始的图像和属性描述,可以任意操作成实验表征。数据集和代码链接是https://github.com/headacheboy/data-of-multimodal-sarcasm-detection
1.《Multimodal Language Analysis in the Wild_ CMU-MOSEI Dataset and Interpretable Dynamic Fusion Graph》--【多模态情感和情绪分析】2018年。论文中描述的CMU-MOSEI数据集规模最大的三模态数据集之一,且具有情感和情绪两个标签,情感从negative到positive一共有7个类别,情绪包含愤怒、开心、悲伤、惊讶、害怕和厌恶6个类别,标签的数值在[-3~3]之间。数据集给出了原始数据,但是过于原始,即给出的是文本,音频和视频文件,图像还得自己去以固定频率捕获并且和文本语音对其还是比较麻烦的。大多实验都使用处理好的实验数据。数据集的链接是:http://immortal.multicomp.cs.cmu.edu/raw_datasets/processed_data/
2.《UR-FUNNY: A Multimodal Language Dataset for Understanding Humor》--【多模态幽默分析】2019年。论文中描述的是UR-FUNNY数据集,包含文本语音图像三个模态来分析幽默情感。具体目前没用到没有细看,日后再补充。数据集和代码链接是:https://github.com/ROC-HCI/UR-FUNNY
3.《MOSI: Multimodal Corpus of Sentiment Intensity and Subjectivity Analysis in Online Opinion Videos》--【多模态情绪分析】。论文中描述的是CMU-MOSI数据集,跟上述的CMU-MOSEI数据集名字很像,但是发布较早,规模小且只有情绪的标签。数据集跟MOSEI一样,有处理好的实验数据,但是也有部分原始数据,video部分依然是视频不是已经捕获好的图像。数据集的链接是:http://immortal.multicomp.cs.cmu.edu/raw_datasets/processed_data/
4.《CH-SIMS: A Chinese Multimodal Sentiment Analysis Dataset with Fine-grained Annotations of Modality》--【中文多模态情绪】2020年。论文中给出常规的文本、图片和语音的数据进行多模态情绪分类,其中标签更加细致,不仅有最终的标签,还有各个模态的标签。
《 Making the v in vqa matter: Elevating the role of image understanding in visual question answering》--【多模态问答】2017年。论文中是VQA数据集,包括原始的图片、问答文本等各种属性。我们简单的可以通过word2vec或者Glove或者bert提取文本的embedding,通过Resnet来提取图片的feature,图片问题和回答三个方面通过对应的id来联系
1.《Microsoft COCO Captions Data Collection and Evaluation Server》--【多模态图片字幕】2015年。论文给出的是经典的MS COCO数据集,现在还在广泛使用,我看21年的论文依然在用这个数据集,很出名。数据集较大,大部分设计到纯CV方面的数据集,标注一共分为5类:目标点检测,关键点检测,实例分割,全景分割以及图片标注,前面四个都是CV领域的,感兴趣的同学可以玩一下,简单的多模态方向只需要最后一个,当然如果你要通过目标检测辅助多模态分析等等方向前面几个标注也是有用的。简单的,我们这里需要的是图片和字幕两个模态,这里注意每个图片对应5条字幕,可以用来做多模态匹配之类的任务。数据集包括2014年发布的以及2017年发布的,每个都有超过几十万张图片的标注,图片给出的是原始图片,标注是基于JSON文件给出的,也是原始的文本数据,我们只要写出程序将字幕抽取出来就可以了,字幕和图片之间有id对应,非常方便。
2.《Nus-wide: A real-world web image database from national university of singapore.》--【多模态图片字幕匹配检索】2009年,数据集包含269648张图片,每张图片包含81个真实的标签以及100个文本注释。美中不足的是大概看了一下,给的直接是图片的特征,也就没有原始图片,如果论文的方法在Embedding之上可以拿来试一试。
《The IAPR Benchmark: A New Evaluation Resource for Visual Information Systems》--【多模态图片字幕匹配检索】IAPR TC-12数据集,包括20,000张从世界各地拍摄的静态自然图像,包括各种不同的静态自然图像截面。这包括不同运动和动作的照片,人物、动物、城市、风景和当代生活的许多其他方面的照片。使用三种语言(英语,德语和西班牙语)来进行注释。
6.《WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training》--【多模态检索 2021】论文发布了超级大型的中文文本图片匹配数据集 RUC-CAS-WenLan 用于预训练,数据集规模在3000万对。同时论文也发布了大型中文多模态检索预训练模型。