TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Zero-Shot Cross-Modal Retrieval	COCO 2014	Flamingo	Image-to-text R@1	65.9	# 9
Zero-Shot Cross-Modal Retrieval	COCO 2014	Flamingo	Image-to-text R@5	87.3	# 8
Zero-Shot Cross-Modal Retrieval	COCO 2014	Flamingo	Image-to-text R@10	92.9	# 7
Zero-Shot Cross-Modal Retrieval	COCO 2014	Flamingo	Text-to-image R@1	48.0	# 9
Zero-Shot Cross-Modal Retrieval	COCO 2014	Flamingo	Text-to-image R@5	73.3	# 9
Zero-Shot Cross-Modal Retrieval	COCO 2014	Flamingo	Text-to-image R@10	82.1	# 8
Zero-Shot Cross-Modal Retrieval	Flickr30k	Flamingo	Image-to-text R@1	89.3	# 10
Zero-Shot Cross-Modal Retrieval	Flickr30k	Flamingo	Image-to-text R@5	98.8	# 11
Zero-Shot Cross-Modal Retrieval	Flickr30k	Flamingo	Image-to-text R@10	99.7	# 7
Zero-Shot Cross-Modal Retrieval	Flickr30k	Flamingo	Text-to-image R@1	79.5	# 8
Zero-Shot Cross-Modal Retrieval	Flickr30k	Flamingo	Text-to-image R@5	95.3	# 7
Zero-Shot Cross-Modal Retrieval	Flickr30k	Flamingo	Text-to-image R@10	97.9	# 5
Meme Classification	Hateful Memes	Flamingo (few-shot:32)	ROC-AUC	0.700	# 8
Visual Question Answering (VQA)	MSRVTT-QA	Flamingo (32-shot)	Accuracy	0.310	# 29
Visual Question Answering (VQA)	MSRVTT-QA	Flamingo (0-shot)	Accuracy	0.174	# 31
Visual Question Answering (VQA)	MSRVTT-QA	Flamingo	Accuracy	0.474	# 5
Temporal/Casual QA	NExT-QA	Flamingo(32-shot)	WUPS	33.5	# 4
Temporal/Casual QA	NExT-QA	Flamingo(0-shot)	WUPS	26.7	# 7
Visual Question Answering (VQA)	OK-VQA	Flamingo3B	Accuracy	41.2	# 26
Visual Question Answering (VQA)	OK-VQA	Flamingo80B	Accuracy	50.6	# 18
Visual Question Answering (VQA)	OK-VQA	Flamingo9B	Accuracy	44.7	# 23
Medical Visual Question Answering	PMC-VQA	Open-Flamingo	Accuracy	26.4	# 2
Visual Question Answering (VQA)	PMC-VQA	Open-Flamingo	Accuracy	26.4	# 2
Generative Visual Question Answering	PMC-VQA	Open-Flamingo	BLEU-1	4.1	# 3
Action Recognition	RareAct	🦩 Flamingo	mWAP	60.8	# 1
Video Question Answering	STAR Benchmark	Flamingo-80B (4-shot)	Average Accuracy	42.4	# 11
Zero-Shot Video Question Answer	STAR Benchmark	Flamingo-9B	Accuracy	39.7	# 5
Zero-Shot Video Question Answer	STAR Benchmark	Flamingo-9B	Accuracy	41.8	# 2
Zero-Shot Video Question Answer	STAR Benchmark	Flamingo-80B	Accuracy	39.7	# 5
Video Question Answering	STAR Benchmark	Flamingo-9B (4-shot)	Average Accuracy	42.8	# 10
Video Question Answering	STAR Benchmark	Flamingo-80B (0-shot)	Average Accuracy	39.7	# 13
Video Question Answering	STAR Benchmark	Flamingo-9B (0-shot)	Average Accuracy	41.8	# 12
Visual Question Answering (VQA)	VQA v2 test-dev	Flamingo 3B	Accuracy	49.2	# 55
Visual Question Answering (VQA)	VQA v2 test-dev	Flamingo 9B	Accuracy	51.8	# 52
Visual Question Answering (VQA)	VQA v2 test-dev	Flamingo 80B	Accuracy	56.3	# 49

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/flamingo-a-visual-language-model-for-few-shot-1/action-recognition-on-rareact)](https://paperswithcode.com/sota/action-recognition-on-rareact?p=flamingo-a-visual-language-model-for-few-shot-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/flamingo-a-visual-language-model-for-few-shot-1/medical-visual-question-answering-on-pmc-vqa)](https://paperswithcode.com/sota/medical-visual-question-answering-on-pmc-vqa?p=flamingo-a-visual-language-model-for-few-shot-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/flamingo-a-visual-language-model-for-few-shot-1/visual-question-answering-vqa-on-pmc-vqa)](https://paperswithcode.com/sota/visual-question-answering-vqa-on-pmc-vqa?p=flamingo-a-visual-language-model-for-few-shot-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/flamingo-a-visual-language-model-for-few-shot-1/zero-shot-video-question-answer-on-star)](https://paperswithcode.com/sota/zero-shot-video-question-answer-on-star?p=flamingo-a-visual-language-model-for-few-shot-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/flamingo-a-visual-language-model-for-few-shot-1/generative-visual-question-answering-on-pmc)](https://paperswithcode.com/sota/generative-visual-question-answering-on-pmc?p=flamingo-a-visual-language-model-for-few-shot-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/flamingo-a-visual-language-model-for-few-shot-1/temporal-casual-qa-on-next-qa)](https://paperswithcode.com/sota/temporal-casual-qa-on-next-qa?p=flamingo-a-visual-language-model-for-few-shot-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/flamingo-a-visual-language-model-for-few-shot-1/visual-question-answering-on-msrvtt-qa-1)](https://paperswithcode.com/sota/visual-question-answering-on-msrvtt-qa-1?p=flamingo-a-visual-language-model-for-few-shot-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/flamingo-a-visual-language-model-for-few-shot-1/zero-shot-video-question-answer-on-star-1)](https://paperswithcode.com/sota/zero-shot-video-question-answer-on-star-1?p=flamingo-a-visual-language-model-for-few-shot-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/flamingo-a-visual-language-model-for-few-shot-1/meme-classification-on-hateful-memes)](https://paperswithcode.com/sota/meme-classification-on-hateful-memes?p=flamingo-a-visual-language-model-for-few-shot-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/flamingo-a-visual-language-model-for-few-shot-1/zero-shot-cross-modal-retrieval-on-coco-2014)](https://paperswithcode.com/sota/zero-shot-cross-modal-retrieval-on-coco-2014?p=flamingo-a-visual-language-model-for-few-shot-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/flamingo-a-visual-language-model-for-few-shot-1/zero-shot-cross-modal-retrieval-on-flickr30k)](https://paperswithcode.com/sota/zero-shot-cross-modal-retrieval-on-flickr30k?p=flamingo-a-visual-language-model-for-few-shot-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/flamingo-a-visual-language-model-for-few-shot-1/video-question-answering-on-situated)](https://paperswithcode.com/sota/video-question-answering-on-situated?p=flamingo-a-visual-language-model-for-few-shot-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/flamingo-a-visual-language-model-for-few-shot-1/visual-question-answering-on-ok-vqa)](https://paperswithcode.com/sota/visual-question-answering-on-ok-vqa?p=flamingo-a-visual-language-model-for-few-shot-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/flamingo-a-visual-language-model-for-few-shot-1/visual-question-answering-on-vqa-v2-test-dev)](https://paperswithcode.com/sota/visual-question-answering-on-vqa-v2-test-dev?p=flamingo-a-visual-language-model-for-few-shot-1)`

Flamingo: a Visual Language Model for Few-Shot Learning

DeepMind 2022 · Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katie Millican, Malcolm Reynolds, Roman Ring, Eliza Rutherford, Serkan Cabi, Tengda Han, Zhitao Gong, Sina Samangooei, Marianne Monteiro, Jacob Menick, Sebastian Borgeaud, Andrew Brock, Aida Nematzadeh, Sahand Sharifzadeh, Mikolaj Binkowski, Ricardo Barreira, Oriol Vinyals, Andrew Zisserman, Karen Simonyan ·

Building models that can be rapidly adapted to novel tasks using only a handful of annotated examples is an open challenge for multimodal machine learning research. We introduce Flamingo, a family of Visual Language Models (VLM) with this ability. We propose key architectural innovations to: (i) bridge powerful pretrained vision-only and language-only models, (ii) handle sequences of arbitrarily interleaved visual and textual data, and (iii) seamlessly ingest images or videos as inputs. Thanks to their flexibility, Flamingo models can be trained on large-scale multimodal web corpora containing arbitrarily interleaved text and images, which is key to endow them with in-context few-shot learning capabilities. We perform a thorough evaluation of our models, exploring and measuring their ability to rapidly adapt to a variety of image and video tasks. These include open-ended tasks such as visual question-answering, where the model is prompted with a question which it has to answer; captioning tasks, which evaluate the ability to describe a scene or an event; and close-ended tasks such as multiple-choice visual question-answering. For tasks lying anywhere on this spectrum, a single Flamingo model can achieve a new state of the art with few-shot learning, simply by prompting the model with task-specific examples. On numerous benchmarks, Flamingo outperforms models fine-tuned on thousands of times more task-specific data.

PDF Abstract DeepMind 2022 PDF

Code

Add Remove Mark official

mlfoundations/open_flamingo

↳ Quickstart in

Spaces

3,466

lucidrains/flamingo-pytorch

1,145

unispac/visual-adversarial-examples…

↳ Quickstart in

Spaces

115

doc-doc/NExT-OE

happen2me/cross-gnn

Tasks

Add Remove

Few-Shot Learning

Generative Visual Question Answering

Language Modelling

Medical Visual Question Answering

Multiple-choice

Question Answering

Temporal/Casual QA

Video Question Answering

Video Understanding

Visual Question Answering

Visual Question Answering (VQA)

Zero-Shot Cross-Modal Retrieval

Zero-Shot Learning

Zero-Shot Video Question Answer

Datasets

MS COCO

Flickr30k test

Visual Question Answering v2.0

OK-VQA

TextVQA

YouCook2

VisDial

Hateful Memes

VizWiz

VATEX

NExT-QA MSRVTT-QA PMC-VQA

iVQA

STAR Benchmark

RareAct

Results from the Paper

Add Remove

Ranked #1 on Action Recognition on RareAct

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Zero-Shot Cross-Modal Retrieval	COCO 2014	Flamingo	Image-to-text R@1	65.9	# 9	Compare
			Image-to-text R@5	87.3	# 8	Compare
			Image-to-text R@10	92.9	# 7	Compare
			Text-to-image R@1	48.0	# 9	Compare
			Text-to-image R@5	73.3	# 9	Compare
			Text-to-image R@10	82.1	# 8	Compare
Zero-Shot Cross-Modal Retrieval	Flickr30k	Flamingo	Image-to-text R@1	89.3	# 10	Compare
			Image-to-text R@5	98.8	# 11	Compare
			Image-to-text R@10	99.7	# 7	Compare
			Text-to-image R@1	79.5	# 8	Compare
			Text-to-image R@5	95.3	# 7	Compare
			Text-to-image R@10	97.9	# 5	Compare
Meme Classification	Hateful Memes	Flamingo (few-shot:32)	ROC-AUC	0.700	# 8	Compare
Visual Question Answering (VQA)	MSRVTT-QA	Flamingo (32-shot)	Accuracy	0.310	# 29	Compare
Visual Question Answering (VQA)	MSRVTT-QA	Flamingo (0-shot)	Accuracy	0.174	# 31	Compare
Visual Question Answering (VQA)	MSRVTT-QA	Flamingo	Accuracy	0.474	# 5	Compare
Temporal/Casual QA	NExT-QA	Flamingo(32-shot)	WUPS	33.5	# 4	Compare
Temporal/Casual QA	NExT-QA	Flamingo(0-shot)	WUPS	26.7	# 7	Compare
Visual Question Answering (VQA)	OK-VQA	Flamingo3B	Accuracy	41.2	# 26	Compare
Visual Question Answering (VQA)	OK-VQA	Flamingo80B	Accuracy	50.6	# 18	Compare
Visual Question Answering (VQA)	OK-VQA	Flamingo9B	Accuracy	44.7	# 23	Compare
Medical Visual Question Answering	PMC-VQA	Open-Flamingo	Accuracy	26.4	# 2	Compare
Visual Question Answering (VQA)	PMC-VQA	Open-Flamingo	Accuracy	26.4	# 2	Compare
Generative Visual Question Answering	PMC-VQA	Open-Flamingo	BLEU-1	4.1	# 3	Compare
Action Recognition	RareAct	🦩 Flamingo	mWAP	60.8	# 1	Compare
Video Question Answering	STAR Benchmark	Flamingo-80B (4-shot)	Average Accuracy	42.4	# 11	Compare
Zero-Shot Video Question Answer	STAR Benchmark	Flamingo-9B	Accuracy	39.7	# 5	Compare
Zero-Shot Video Question Answer	STAR Benchmark	Flamingo-9B	Accuracy	41.8	# 2	Compare
Zero-Shot Video Question Answer	STAR Benchmark	Flamingo-80B	Accuracy	39.7	# 5	Compare
Video Question Answering	STAR Benchmark	Flamingo-9B (4-shot)	Average Accuracy	42.8	# 10	Compare
Video Question Answering	STAR Benchmark	Flamingo-80B (0-shot)	Average Accuracy	39.7	# 13	Compare
Video Question Answering	STAR Benchmark	Flamingo-9B (0-shot)	Average Accuracy	41.8	# 12	Compare
Visual Question Answering (VQA)	VQA v2 test-dev	Flamingo 3B	Accuracy	49.2	# 55	Compare
Visual Question Answering (VQA)	VQA v2 test-dev	Flamingo 9B	Accuracy	51.8	# 52	Compare
Visual Question Answering (VQA)	VQA v2 test-dev	Flamingo 80B	Accuracy	56.3	# 49	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Flamingo: a Visual Language Model for Few-Shot Learning

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit Add Remove

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Add Remove

Methods

Add Remove