TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Action Recognition	Diving-48	AIM (CLIP ViT-L/14, 32x224)	Accuracy	90.6	# 2
Action Classification	Kinetics-400	AIM (CLIP ViT-L/14, 32x224)	Acc@1	87.5	# 29
Action Classification	Kinetics-400	AIM (CLIP ViT-L/14, 32x224)	Acc@5	97.7	# 16
Action Classification	Kinetics-700	AIM (CLIP ViT-L/14, 32x224)	Top-1 Accuracy	80.4	# 12

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/aim-adapting-image-models-for-efficient-video/action-recognition-on-diving-48)](https://paperswithcode.com/sota/action-recognition-on-diving-48?p=aim-adapting-image-models-for-efficient-video)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/aim-adapting-image-models-for-efficient-video/action-classification-on-kinetics-700)](https://paperswithcode.com/sota/action-classification-on-kinetics-700?p=aim-adapting-image-models-for-efficient-video)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/aim-adapting-image-models-for-efficient-video/action-classification-on-kinetics-400)](https://paperswithcode.com/sota/action-classification-on-kinetics-400?p=aim-adapting-image-models-for-efficient-video)`

AIM: Adapting Image Models for Efficient Video Action Recognition

6 Feb 2023 · Taojiannan Yang, Yi Zhu, Yusheng Xie, Aston Zhang, Chen Chen, Mu Li ·

Recent vision transformer based video models mostly follow the ``image pre-training then finetuning" paradigm and have achieved great success on multiple video benchmarks. However, full finetuning such a video model could be computationally expensive and unnecessary, given the pre-trained image transformer models have demonstrated exceptional transferability. In this work, we propose a novel method to Adapt pre-trained Image Models (AIM) for efficient video understanding. By freezing the pre-trained image model and adding a few lightweight Adapters, we introduce spatial adaptation, temporal adaptation and joint adaptation to gradually equip an image model with spatiotemporal reasoning capability. We show that our proposed AIM can achieve competitive or even better performance than prior arts with substantially fewer tunable parameters on four video action recognition benchmarks. Thanks to its simplicity, our method is also generally applicable to different image pre-trained models, which has the potential to leverage more powerful image foundation models in the future. The project webpage is \url{https://adapt-image-models.github.io/}.

PDF Abstract

Code

Add Remove Mark official

taoyang1122/adapt-image-models

240

Tasks

Add Remove

Action Classification

Action Recognition

Temporal Action Localization

Video Understanding

Datasets

Kinetics

Kinetics 400

Kinetics-700

Results from the Paper

Edit

Ranked #2 on Action Recognition on Diving-48 (using extra training data)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Action Recognition	Diving-48	AIM (CLIP ViT-L/14, 32x224)	Accuracy	90.6	# 2	Compare
Action Classification	Kinetics-400	AIM (CLIP ViT-L/14, 32x224)	Acc@1	87.5	# 29	Compare
Action Classification	Kinetics-400	AIM (CLIP ViT-L/14, 32x224)	Acc@5	97.7	# 16	Compare
Action Classification	Kinetics-700	AIM (CLIP ViT-L/14, 32x224)	Top-1 Accuracy	80.4	# 12	Compare

Methods

Add Remove

Dense Connections • Layer Normalization • Linear Layer • Multi-Head Attention • Residual Connection • Scaled Dot-Product Attention • Softmax • Vision Transformer

Edit Social Preview

AIM: Adapting Image Models for Efficient Video Action Recognition

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove