(一)简介
图片可以用于传达某些情感,例如看到流浪狗的照片会让你感到悲伤,而看到美景的时候会让你心旷神怡。对图片所传达的情感进行识别分析是一个具有吸引力的问题。目前已经有很多的方法在研究这个课题,本博客主要对自己所看过的相关论文做一个总结分享。
1. 情绪模型
心理学中主要有两种情感表达模型:
- CES (Categorical Emotion States): 类别情绪状态。这种模型主要讲情绪设置为一组预先定义好的种类,例如:伤心,开心,激动等。这种模型所对应的方法将图片情感分析视为一个分类问题。
- DES(Dimensional Emotion Space): 维度情绪模型。其中常用的有 valence-arousal-dominance (VAD) and activity-temperature-weight (VTT) 模型,其中 VAD 模型常用一些。我们可以将其视为颜色中的三种基本颜色,通过不同数值的组合得到一个颜色。VAD 中 valence、arousa l和 dominance 三个维度给一个值就代表一种情感。这种模型所对应的方法将图片情感分析视为一个回归问题。
目前大部分的论文都是使用 CES 模型的,因为这个模型直观简单,但是理论上来说 CES 的情感表达能力不如 DES,比如特别伤心和有点伤心都属于伤心一类,但是在 DES 中各个维度的值就会不同。但是两者之间是有一定联系的。比如下图中的 © 子图,如果按照 CES 就是 fear 一类,如果按照 DES 三个维度对应的值就是 4.1956、4.49989 和 4.8378。
2. 常用数据集
- IASP (International Affective Picture System)
- IASPa
- Abstract
- GAPED (Geneva Affective Picture Database)
- MART
- devArt
- Tweet
- FlickrCC (Flickr creative common)
- Flickr
- Emotion6
- FI (Flicker and Instagram)
- Emotion6
- IESN
- FlickrLDL
- TwitterLDL
3. 问题难点(挑战)
3.1 数据标记困难
标记图片的情感是一件很困难的事情,一是构造大型数据集(深度学习通常需要大量数据)通常需要大量的人力,另外有一个很关键的问题就是情绪这个问题是很主观的:同一张图片不同人可能从中获得的情感是不同的,同一个人在不同时期对同一张图片产生的情感也可能是不同的。因此标注一个大型数据集很麻烦,导致现有的大型数据集很少。解决上述问题的方法之一就是一张图片多个人标注,当某一情感占据绝对优势的时候才放入数据集。具体的流程可以参考《Building a Large Scale Dataset for Image Emotion Recognition:
The Fine Print and the Benchmark》https://arxiv.org/abs/1605.02677.
3.2 情感涉及的图片特征多样化
不同图片可能引起人们情感的原因不同,例如有的图片是由于其中的物体,有的是其中的线条,有的是一些构图。因此是高层特征起作用还是低层特征起作用是一个重要的问题。例如 Abstract 数据集主要是由于其中的抽象特征(线条等)起作用,GAPED 数据集主要是图片中物体起作用。
(二)主要方法
1. 低级特征
最经典的论文《Affective Image Classification using Features Inspired by Psychology and Art Theory》http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.393.7676&rep=rep1&type=pdf,论文使用从美学艺术概念中提取出的特征来对图片情感进行分类。主要使用的特征如下图:
2. 中级特征
经典例子《Sun attribute database: Discovering, annotating, and recognizing scene attributes》http://static.cs.brown.edu/people/gmpatter/pub_papers/SUN_Attribute_Database_CVPR2012.pdf,文中主要用了 materials, surface properties, functions or affordances, spatial envelop attributes and object presence 的 5 个大类属性。
3. 高级特征
经典例子《Large-scale visual sentiment ontology and detectors using adjective noun pairs》http://www.ee.columbia.edu/ln/dvmm/publications/13/visual_sentiment_ontology_final.pdf,文中使用形容词名次对(adjective noun pairs (ANPs))来对图片情感进行分类。
4. 基于学习的特征
上述的特征大部分都是有人手工定义的,因此泛化性能交差,比如低级特征的方法用户高级特征主导的数据集,可能表现会很差。深度学习具有学习特征表示的能力,因此有大量深度学习的方法提出来解决图片情感分类问题。
例如:
第一篇论文:主要是基于迁移学习的,将预训练好的 ImageNet 迁移到情感图片数据集上,然后微调最后一层网络。
第二篇论文:主要使用了一种多任务学习框架,不仅学习了图片情感分类任务,还学习了标签分布。
第三篇论文:使用了一个多级网络,原理是前面的 CNN 学到的是低级特征,后面的 CNN 学到的是高级特征,然后再使用多个 CNN 层和完全连接层将多个特征融合到一起对图片情感进行分类。
第四篇论文:基于第三篇论文,进一步研究了不同级别特征之间的关系对图片情感进行分类。
第五篇论文:类似于第一篇论文的方面,基于迁移学习和微调的方法,不过其中的消融对照实验很有启发性。
第六篇论文:使用一种多任务学习框架结合度量学习,不仅学习了图片情感分类任务,还学习的情绪之间的关系。
(三)论文链接