TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Action Recognition	HMDB-51	C3D	Average accuracy of 3 splits	51.6	# 75
Dynamic Facial Expression Recognition	MAFW	C3D	WAR	42.25	# 13
Dynamic Facial Expression Recognition	MAFW	C3D	UAR	31.17	# 10
Dynamic Facial Expression Recognition	MAFW	C3D+LSTM	WAR	43.76	# 11
Dynamic Facial Expression Recognition	MAFW	C3D+LSTM	UAR	29.75	# 12
Action Recognition	Sports-1M	C3D	Clip Hit@1	46.1	# 4
Action Recognition	Sports-1M	C3D	Video hit@1	61.1	# 8
Action Recognition	Sports-1M	C3D	Video hit@5	85.5	# 8
Action Recognition	UCF101	C3D	3-fold Accuracy	82.3	# 79

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/learning-spatiotemporal-features-with-3d/action-recognition-in-videos-on-sports-1m)](https://paperswithcode.com/sota/action-recognition-in-videos-on-sports-1m?p=learning-spatiotemporal-features-with-3d)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/learning-spatiotemporal-features-with-3d/dynamic-facial-expression-recognition-on-mafw)](https://paperswithcode.com/sota/dynamic-facial-expression-recognition-on-mafw?p=learning-spatiotemporal-features-with-3d)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/learning-spatiotemporal-features-with-3d/action-recognition-in-videos-on-hmdb-51)](https://paperswithcode.com/sota/action-recognition-in-videos-on-hmdb-51?p=learning-spatiotemporal-features-with-3d)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/learning-spatiotemporal-features-with-3d/action-recognition-in-videos-on-ucf101)](https://paperswithcode.com/sota/action-recognition-in-videos-on-ucf101?p=learning-spatiotemporal-features-with-3d)`

Learning Spatiotemporal Features with 3D Convolutional Networks

ICCV 2015 · Du Tran, Lubomir Bourdev, Rob Fergus, Lorenzo Torresani, Manohar Paluri ·

We propose a simple, yet effective approach for spatiotemporal feature learning using deep 3-dimensional convolutional networks (3D ConvNets) trained on a large scale supervised video dataset. Our findings are three-fold: 1) 3D ConvNets are more suitable for spatiotemporal feature learning compared to 2D ConvNets; 2) A homogeneous architecture with small 3x3x3 convolution kernels in all layers is among the best performing architectures for 3D ConvNets; and 3) Our learned features, namely C3D (Convolutional 3D), with a simple linear classifier outperform state-of-the-art methods on 4 different benchmarks and are comparable with current best methods on the other 2 benchmarks. In addition, the features are compact: achieving 52.8% accuracy on UCF101 dataset with only 10 dimensions and also very efficient to compute due to the fast inference of ConvNets. Finally, they are conceptually very simple and easy to train and use.

PDF Abstract ICCV 2015 PDF ICCV 2015 Abstract

Code

Add Remove Mark official

facebookarchive/C3D official

1,160

open-mmlab/mmaction2

3,892

mindspore-ai/models

286

coderSkyChen/Action_Recognition_Zoo

244

axon-research/c3d-keras

176

See all 28 implementations

Tasks

Add Remove

Action Recognition

Action Recognition In Videos

Dynamic Facial Expression Recognition

Datasets

UCF101

HMDB51

Sports-1M

MAFW

Results from the Paper

Edit

Ranked #8 on Action Recognition on Sports-1M

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Dynamic Facial Expression Recognition	MAFW	C3D+LSTM	WAR	43.76	# 11	Compare
Dynamic Facial Expression Recognition	MAFW	C3D+LSTM	UAR	29.75	# 12	Compare
Action Recognition	Sports-1M	C3D	Clip Hit@1	46.1	# 4	Compare
			Video hit@1	61.1	# 8	Compare
			Video hit@5	85.5	# 8	Compare
Action Recognition	UCF101	C3D	3-fold Accuracy	82.3	# 79	Compare

Results from Other Papers

Task	Dataset	Model	Metric Name	Metric Value	Rank	Compare
Action Recognition	HMDB-51	C3D	Average accuracy of 3 splits	51.6	# 75	See all
Dynamic Facial Expression Recognition	MAFW	C3D	WAR	42.25	# 13	See all
Dynamic Facial Expression Recognition	MAFW	C3D	UAR	31.17	# 10	See all

Methods

Add Remove

Convolution

Edit Social Preview

Learning Spatiotemporal Features with 3D Convolutional Networks

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit